Classificação: O GPT-4 da OpenAI Alcança a Menor Taxa de Alucinações

Home Notícias de IA Classificação: O GPT-4 da OpenAI Alcança a Menor Taxa de Alucinações

Updated on outubro 25 2024

O GPT-4 da OpenAI se destacou como o principal modelo de linguagem de grande porte (LLM) na minimização de alucinações ao resumir documentos, de acordo com uma avaliação recente da Vectara. A empresa lançou uma lista abrangente no GitHub que avaliou os principais LLMs utilizando seu Modelo de Avaliação de Alucinações. Este modelo quantifica a frequência de alucinações—casos em que a IA gera informações imprecisas ou fabricadas—durante os resumos documentais.

Tanto o GPT-4 quanto sua variante, o GPT-4 Turbo, apresentaram um desempenho notável, com uma taxa de precisão de 97% e uma taxa de alucinação mínima de apenas 3%. Em segundo lugar, o GPT-3.5 Turbo mostrou uma precisão impressionante de 96,5% e uma taxa de alucinação um pouco mais alta, de 3,5%.

Entre os concorrentes não OpenAI, a versão de 70 bilhões de parâmetros do Llama 2 da Meta se destacou, alcançando uma pontuação de precisão de 94,9% e uma taxa de alucinação de apenas 5,1%. Em contrapartida, os modelos do Google apresentaram um desempenho insatisfatório na classificação. O Google Palm 2 registrou uma precisão de 87,9% e uma taxa de alucinação de 12,1%, enquanto sua versão refinada para chat caiu consideravelmente, apresentando apenas 72,8% de precisão e a maior taxa de alucinação de 27,2%.

Vale ressaltar que o Google Palm 2 Chat gerou a maior contagem média de palavras por resumo, com 221 palavras, enquanto o GPT-4 produziu uma média de 81 palavras por resumo.

Metodologia de Avaliação

A avaliação da Vectara, destinada a identificar alucinações nos resultados de LLMs, utilizou conjuntos de dados de código aberto. A empresa testou cada modelo em 1.000 documentos curtos, solicitando resumos com base apenas no conteúdo fornecido. No entanto, apenas 831 desses documentos foram resumidos por todos os modelos, pois os restantes foram filtrados devido a restrições de conteúdo. Para os documentos compartilhados entre todos os modelos, a Vectara calculou as taxas de precisão e alucinação.

É importante notar que, embora o conteúdo testado fosse livre de material ilícito e 'não seguro para o trabalho', a presença de determinadas palavras-chave ocasionou restrições de conteúdo em alguns modelos.

Enfrentando Desafios de Alucinação

As alucinações representam um obstáculo significativo para a adoção generalizada da IA generativa nas empresas. Shane Connelly, chefe de produtos da Vectara, destacou em um post no blog a dificuldade histórica em quantificar alucinações de maneira eficaz. Tentativas anteriores muitas vezes foram muito abstratas ou envolveram temas controversos, limitando sua aplicação prática para os negócios.

O Modelo de Avaliação de Alucinações criado pela Vectara é de código aberto, permitindo que as organizações o utilizem para avaliar a confiabilidade de seus modelos de linguagem em estruturas de Geração Aumentada por Recuperação (RAG). Este modelo está disponível através do Hugging Face, possibilitando aos usuários personalizá-lo conforme suas necessidades únicas.

Como Connelly enfatiza, "Nosso objetivo é equipar as empresas com insights necessários para implementar sistemas generativos de forma confiante por meio de análises detalhadas e quantificadas." Ao proporcionar uma compreensão mais clara dos resultados da IA, as empresas podem navegar melhor nas nuances da tecnologia de IA generativa.

Inovador: Dois Sistemas de IA Negociam com Sucesso Seu Próprio Contrato

OpenAI Buscou Fusão com a Anthropic: Sam Altman Chamado de 'Mártir'

Most people like

The Prompt Index

13.9K

Descubra o recurso definitivo para gerar prompts de IA e dominar técnicas de engenharia de prompts. Desbloqueie novas possibilidades em seus projetos de IA hoje mesmo!

Sugestões de redação de IA AI Content Generator

CopyGenius

36.6K

Aproveite o poder da redação impulsionada por IA para elevar seu negócio de e-commerce. Descubra como a automação inteligente pode criar descrições de produtos atraentes, conteúdos de marketing cativantes e mensagens personalizadas para clientes, tudo isso projetado para aumentar o engajamento e impulsionar as vendas. Conheça hoje o impacto transformador da IA na sua loja online!

Inteligência Artificial AI Content Generator

Paraphrase Online

231.3K

Descubra a ferramenta de reformulação online definitiva, projetada especialmente para estudantes e escritores. Transforme sua escrita sem esforço, mantendo o significado original e melhorando a clareza. Ideal para trabalhos acadêmicos, projetos criativos e muito mais!

Ferramenta de paráfrase Paraphraser

wizdom.ai

9.3K

Desbloqueando a Inteligência para Todos: Conectando Conhecimento e Acesso Em um mundo onde o conhecimento é poder, nossa missão é democratizar a inteligência. Acreditamos que todos devem ter a oportunidade de acessar informações e insights valiosos, independentemente de sua origem. Ao derrubar barreiras e aprimorar a compreensão, buscamos capacitar indivíduos e comunidades. Junte-se a nós nesta jornada para tornar a inteligência acessível a todos!

Inteligência Artificial AI Analytics Assistant

Find AI tools in YBX