ArXivum repositório aberto amplamente utilizado para pesquisas pré-impressas, está fazendo mais para reprimir o uso descuidado de grandes modelos de linguagem em artigos científicos.
Embora os artigos sejam publicados no site antes de serem revisados por pares, o arXiv (pronuncia-se “arquivo”) tornou-se uma das principais formas de circulação da pesquisa em áreas como ciência da computação e matemática, e o próprio site tornou-se uma fonte de dados sobre tendências em pesquisa científica.
O ArXiv já tomou medidas para combater um número crescente de artigos de baixa qualidade gerados por IA, por exemplo, exigindo que os postadores iniciantes obter o endosso de um autor estabelecido. E depois de ter sido acolhida pela Cornell durante mais de 20 anos, a organização está a tornar-se uma organização sem fins lucrativos independente, o que deverá permitir-lhe arrecadar mais dinheiro para resolver problemas como problemas de IA.
Em seu último movimento, Thomas Dietterich – presidente da seção de ciência da computação do arXiv – postado Quinta-feira que “se uma submissão contém evidências incontestáveis de que os autores não verificaram os resultados da geração do LLM, isso significa que não podemos confiar em nada do artigo”.
Essa evidência incontestável poderia incluir coisas como “referências alucinadas” e comentários de ou para o LLM, disse Dietterich. Se tal evidência for encontrada, os autores de um artigo enfrentarão “uma proibição de 1 ano do arXiv seguida pela exigência de que as submissões subsequentes do arXiv devem primeiro ser aceitas por um local respeitável e revisado por pares”.
Observe que esta não é uma proibição total do uso de LLMs, mas sim uma insistência para que, como disse Dietterich, os autores assumam “total responsabilidade” pelo conteúdo, “independentemente de como os conteúdos são gerados”. Portanto, se os pesquisadores copiarem e colarem “linguagem inadequada, conteúdo plagiado, conteúdo tendencioso, erros, equívocos, referências incorretas ou conteúdo enganoso” diretamente de um LLM, eles ainda serão responsáveis por isso.
Dietterich disse à 404 mídia que esta será uma regra de “um golpe”, mas os moderadores devem sinalizar o problema e os presidentes de seção devem confirmar as evidências antes de impor a penalidade. Os autores também poderão recorrer da decisão.
Uma pesquisa recente revisada por pares descobriu que citações fabricadas estão aumentando na pesquisa biomédica, provavelmente devido aos LLMs – embora, para ser justo, os cientistas não sejam os únicos a serem pegos usando citações feitas por IA.
Quando você compra por meio de links em nossos artigos, podemos ganhar uma pequena comissão. Isso não afeta nossa independência editorial.

