Um estudo recente do DeepMind, do Google, revelou que um sistema de inteligência artificial pode superar humanos na verificação da precisão das informações produzidas por grandes modelos de linguagem. O artigo, intitulado “Long-form factuality in large language models,” publicado no arXiv, apresenta o Avaliador de Factualidade Aumentada por Pesquisa (SAFE). Este método inovador utiliza um grande modelo de linguagem para decompor textos gerados em fatos individuais e avaliar a precisão de cada afirmação com base nos resultados do Google Pesquisa.
O SAFE emprega um processo que divide respostas longas em fatos distintos e avalia cada um deles por meio de um raciocínio em múltiplas etapas. Isso inclui realizar pesquisas no Google para verificar se as informações são corroboradas por fontes relevantes.
Debate sobre Performance "Sobre-Humana"
Os pesquisadores compararam o SAFE a anotadores humanos usando um conjunto de dados de aproximadamente 16.000 fatos. Eles descobriram que as avaliações do SAFE corresponderam às classificações humanas em 72% das vezes. Em um exemplo de 100 discrepâncias, os julgamentos do SAFE estavam corretos em 76% dos casos. Embora o artigo afirme que "agentes LLM podem atingir desempenho de classificação sobre-humano", alguns especialistas questionam essa definição. Gary Marcus, um proeminente pesquisador em IA, observou no Twitter que "sobre-humano" pode se referir a ser "melhor do que um trabalhador subremunerado" e não a um verdadeiro verificador de fatos humano. Ele comparou isso à sugestão de que o software de xadrez de 1985 representava capacidades sobre-humanas.
Marcus argumenta que, para validar as alegações de desempenho sobre-humano, o SAFE deveria ser comparado a verificadores de fatos humanos especialistas, e não a trabalhadores ocasionais. Detalhes sobre as qualificações e métodos dos avaliadores humanos são essenciais para interpretar esses resultados com precisão.
Economia de Custos e Avaliação de Modelos
Uma vantagem notável do SAFE é sua eficiência de custos; os pesquisadores descobriram que o uso do sistema de IA custava cerca de 20 vezes menos do que empregar verificadores de fatos humanos. Dada a crescente quantidade de informações produzidas por modelos de linguagem, ter uma solução acessível e escalável para verificar as afirmações é crucial.
A equipe do DeepMind aplicou o SAFE para avaliar a precisão factual de 13 modelos de linguagem líderes de quatro famílias (Gemini, GPT, Claude e PaLM-2) usando um novo padrão denominado LongFact. Os resultados sugerem que modelos maiores geralmente cometem menos erros factuais. No entanto, até mesmo os modelos de melhor desempenho ainda produzem um número considerável de imprecisões, destacando a necessidade de cautela ao confiar em modelos de linguagem que podem transmitir informações enganosas. Ferramentas como o SAFE podem ser essenciais para mitigar esses riscos.
Necessidade de Transparência e Referências Humanas
Embora o código do SAFE e o conjunto de dados LongFact estejam disponíveis no GitHub, permitindo uma maior verificação e desenvolvimento, há uma necessidade de mais transparência em relação às referências humanas utilizadas no estudo. Compreender as qualificações e processos dos trabalhadores do grupo é vital para contextualizar o desempenho do SAFE.
À medida que as empresas de tecnologia buscam desenvolver modelos de linguagem cada vez mais sofisticados para diversas aplicações, a capacidade de verificar automaticamente a precisão de seus resultados pode se tornar crítica. Inovações como o SAFE representam um progresso significativo em direção à construção de confiança e responsabilidade nas informações geradas por IA.
Entretanto, é essencial que o avanço de tecnologias tão impactantes ocorra de maneira transparente, incorporando contribuições de várias partes interessadas além de uma única organização. Uma avaliação minuciosa e transparente em comparação com verdadeiros especialistas—e não apenas com trabalhadores ocasionais—será fundamental para medir os avanços genuínos. Somente assim poderemos entender a eficácia da verificação automatizada de fatos no combate à desinformação.