Classificação: O GPT-4 da OpenAI Alcança a Menor Taxa de Alucinações

Home Notícias de IA Classificação: O GPT-4 da OpenAI Alcança a Menor Taxa de Alucinações

Updated on outubro 25 2024

O GPT-4 da OpenAI se destacou como o principal modelo de linguagem de grande porte (LLM) na minimização de alucinações ao resumir documentos, de acordo com uma avaliação recente da Vectara. A empresa lançou uma lista abrangente no GitHub que avaliou os principais LLMs utilizando seu Modelo de Avaliação de Alucinações. Este modelo quantifica a frequência de alucinações—casos em que a IA gera informações imprecisas ou fabricadas—durante os resumos documentais.

Tanto o GPT-4 quanto sua variante, o GPT-4 Turbo, apresentaram um desempenho notável, com uma taxa de precisão de 97% e uma taxa de alucinação mínima de apenas 3%. Em segundo lugar, o GPT-3.5 Turbo mostrou uma precisão impressionante de 96,5% e uma taxa de alucinação um pouco mais alta, de 3,5%.

Entre os concorrentes não OpenAI, a versão de 70 bilhões de parâmetros do Llama 2 da Meta se destacou, alcançando uma pontuação de precisão de 94,9% e uma taxa de alucinação de apenas 5,1%. Em contrapartida, os modelos do Google apresentaram um desempenho insatisfatório na classificação. O Google Palm 2 registrou uma precisão de 87,9% e uma taxa de alucinação de 12,1%, enquanto sua versão refinada para chat caiu consideravelmente, apresentando apenas 72,8% de precisão e a maior taxa de alucinação de 27,2%.

Vale ressaltar que o Google Palm 2 Chat gerou a maior contagem média de palavras por resumo, com 221 palavras, enquanto o GPT-4 produziu uma média de 81 palavras por resumo.

Metodologia de Avaliação

A avaliação da Vectara, destinada a identificar alucinações nos resultados de LLMs, utilizou conjuntos de dados de código aberto. A empresa testou cada modelo em 1.000 documentos curtos, solicitando resumos com base apenas no conteúdo fornecido. No entanto, apenas 831 desses documentos foram resumidos por todos os modelos, pois os restantes foram filtrados devido a restrições de conteúdo. Para os documentos compartilhados entre todos os modelos, a Vectara calculou as taxas de precisão e alucinação.

É importante notar que, embora o conteúdo testado fosse livre de material ilícito e 'não seguro para o trabalho', a presença de determinadas palavras-chave ocasionou restrições de conteúdo em alguns modelos.

Enfrentando Desafios de Alucinação

As alucinações representam um obstáculo significativo para a adoção generalizada da IA generativa nas empresas. Shane Connelly, chefe de produtos da Vectara, destacou em um post no blog a dificuldade histórica em quantificar alucinações de maneira eficaz. Tentativas anteriores muitas vezes foram muito abstratas ou envolveram temas controversos, limitando sua aplicação prática para os negócios.

O Modelo de Avaliação de Alucinações criado pela Vectara é de código aberto, permitindo que as organizações o utilizem para avaliar a confiabilidade de seus modelos de linguagem em estruturas de Geração Aumentada por Recuperação (RAG). Este modelo está disponível através do Hugging Face, possibilitando aos usuários personalizá-lo conforme suas necessidades únicas.

Como Connelly enfatiza, "Nosso objetivo é equipar as empresas com insights necessários para implementar sistemas generativos de forma confiante por meio de análises detalhadas e quantificadas." Ao proporcionar uma compreensão mais clara dos resultados da IA, as empresas podem navegar melhor nas nuances da tecnologia de IA generativa.

Inovador: Dois Sistemas de IA Negociam com Sucesso Seu Próprio Contrato

OpenAI Buscou Fusão com a Anthropic: Sam Altman Chamado de 'Mártir'

Most people like

Impossible Images

23K

Descubra uma biblioteca de imagens de estoque impulsionada por IA, que oferece uma vasta coleção de imagens isentas de royalties, downloads simples e atualizações regulares para manter seus projetos atuais e envolventes. Aprimore seu trabalho criativo com nosso inovador gerador de imagens!

biblioteca de imagens de estoque AI Tools Directory

Writeless

20.4K

Desbloqueie o poder da redação de ensaios com IA, utilizando citações autênticas. Aprimore seu trabalho acadêmico com ferramentas avançadas de IA projetadas para gerar ensaios de alta qualidade apoiados por fontes confiáveis. Eleve sua escrita, economize tempo e garanta precisão com citações seguras ao seu alcance.

Redação de ensaios com IA Essay Writer

Ask AI - AI Powered Chat Bot Assistant

Descubra um assistente virtual inteligente com chatbot alimentado por IA, projetado para respostas instantâneas e suporte à escrita. Se você precisa de informações rápidas ou de ajuda para aprimorar seus textos, nosso chatbot inteligente está à disposição para auxiliá-lo a qualquer momento. Experimente a conveniência de ter um assistente virtual confiável que atende às suas necessidades!

Chatbot com inteligência artificial AI Chatbot

Reface

919.7K

Transforme seus vídeos e GIFs com o aplicativo Reface movido por IA, que permite trocar rostos de forma fluida. Além disso, transforme suas fotos favoritas em divertida e vibrante cartoon com facilidade!

IA AI Product Description Generator

Find AI tools in YBX