Google DeepMind Lança Sistema de IA 'Super-Humana': Revolucionando a Verificação de Fatos, Reduzindo Custos e Aumentando a Precisão

Home Notícias de IA Google DeepMind Lança Sistema de IA 'Super-Humana': Revolucionando a Verificação de Fatos, Reduzindo Custos e Aumentando a Precisão

Um estudo recente do DeepMind, do Google, revelou que um sistema de inteligência artificial pode superar humanos na verificação da precisão das informações produzidas por grandes modelos de linguagem. O artigo, intitulado “Long-form factuality in large language models,” publicado no arXiv, apresenta o Avaliador de Factualidade Aumentada por Pesquisa (SAFE). Este método inovador utiliza um grande modelo de linguagem para decompor textos gerados em fatos individuais e avaliar a precisão de cada afirmação com base nos resultados do Google Pesquisa.

O SAFE emprega um processo que divide respostas longas em fatos distintos e avalia cada um deles por meio de um raciocínio em múltiplas etapas. Isso inclui realizar pesquisas no Google para verificar se as informações são corroboradas por fontes relevantes.

Debate sobre Performance "Sobre-Humana"

Os pesquisadores compararam o SAFE a anotadores humanos usando um conjunto de dados de aproximadamente 16.000 fatos. Eles descobriram que as avaliações do SAFE corresponderam às classificações humanas em 72% das vezes. Em um exemplo de 100 discrepâncias, os julgamentos do SAFE estavam corretos em 76% dos casos. Embora o artigo afirme que "agentes LLM podem atingir desempenho de classificação sobre-humano", alguns especialistas questionam essa definição. Gary Marcus, um proeminente pesquisador em IA, observou no Twitter que "sobre-humano" pode se referir a ser "melhor do que um trabalhador subremunerado" e não a um verdadeiro verificador de fatos humano. Ele comparou isso à sugestão de que o software de xadrez de 1985 representava capacidades sobre-humanas.

Marcus argumenta que, para validar as alegações de desempenho sobre-humano, o SAFE deveria ser comparado a verificadores de fatos humanos especialistas, e não a trabalhadores ocasionais. Detalhes sobre as qualificações e métodos dos avaliadores humanos são essenciais para interpretar esses resultados com precisão.

Economia de Custos e Avaliação de Modelos

Uma vantagem notável do SAFE é sua eficiência de custos; os pesquisadores descobriram que o uso do sistema de IA custava cerca de 20 vezes menos do que empregar verificadores de fatos humanos. Dada a crescente quantidade de informações produzidas por modelos de linguagem, ter uma solução acessível e escalável para verificar as afirmações é crucial.

A equipe do DeepMind aplicou o SAFE para avaliar a precisão factual de 13 modelos de linguagem líderes de quatro famílias (Gemini, GPT, Claude e PaLM-2) usando um novo padrão denominado LongFact. Os resultados sugerem que modelos maiores geralmente cometem menos erros factuais. No entanto, até mesmo os modelos de melhor desempenho ainda produzem um número considerável de imprecisões, destacando a necessidade de cautela ao confiar em modelos de linguagem que podem transmitir informações enganosas. Ferramentas como o SAFE podem ser essenciais para mitigar esses riscos.

Necessidade de Transparência e Referências Humanas

Embora o código do SAFE e o conjunto de dados LongFact estejam disponíveis no GitHub, permitindo uma maior verificação e desenvolvimento, há uma necessidade de mais transparência em relação às referências humanas utilizadas no estudo. Compreender as qualificações e processos dos trabalhadores do grupo é vital para contextualizar o desempenho do SAFE.

À medida que as empresas de tecnologia buscam desenvolver modelos de linguagem cada vez mais sofisticados para diversas aplicações, a capacidade de verificar automaticamente a precisão de seus resultados pode se tornar crítica. Inovações como o SAFE representam um progresso significativo em direção à construção de confiança e responsabilidade nas informações geradas por IA.

Entretanto, é essencial que o avanço de tecnologias tão impactantes ocorra de maneira transparente, incorporando contribuições de várias partes interessadas além de uma única organização. Uma avaliação minuciosa e transparente em comparação com verdadeiros especialistas—e não apenas com trabalhadores ocasionais—será fundamental para medir os avanços genuínos. Somente assim poderemos entender a eficácia da verificação automatizada de fatos no combate à desinformação.

Elon Musk Apresenta o Grok-1.5: Atingindo Marcos de Desempenho do GPT-4

SambaNova Lança AI Samba-CoE v0.2: Superando o Databricks DBRX em Inovação e Desempenho

Most people like

Lindo

Lindo é uma plataforma de criação de sites impulsionada por inteligência artificial, projetada especialmente para empresas, que simplifica o processo de criação de sites sem a necessidade de conhecimentos em programação.

construtor de sites AI App Builder

NSFWBots - AI Sex Chatbot List

94.7K

Descubra Todos os Chatbots de Sexo por IA em um Só Lugar Conveniente! Explore uma coleção abrangente de chatbots sexuais impulsionados por IA, reunindo as experiências mais inovadoras e envolventes disponíveis. Se você procura companhia, conselhos ou entretenimento, nossa seleção personalizada garante que você encontre o chatbot ideal para atender aos seus desejos.

Chatbots sexuais de IA AI Chatbot

BRIA.ai

36.1K

Aprimore a criação de conteúdo visual com a tecnologia de IA generativa de ponta da BRIA, projetada para fornecer soluções personalizadas de forma rápida e eficiente.

IA Generativa Visual AI Content Generator

AI SuitUp

32.4K

Transforme sua presença online com fotos profissionais potentes por IA. No mundo digital de hoje, as primeiras impressões são fundamentais, e uma foto de alta qualidade pode diferenciá-lo. Descubra como a tecnologia de IA cria imagens deslumbrantes e personalizadas que capturam sua personalidade única, tornando-o mais acessível e memorável. Eleve sua imagem profissional de forma simples com soluções inovadoras projetadas para indivíduos e empresas.

Gerado por IA AI Photo & Image Generator

Find AI tools in YBX