O GPT-4 da OpenAI se destacou como o principal modelo de linguagem de grande porte (LLM) na minimização de alucinações ao resumir documentos, de acordo com uma avaliação recente da Vectara. A empresa lançou uma lista abrangente no GitHub que avaliou os principais LLMs utilizando seu Modelo de Avaliação de Alucinações. Este modelo quantifica a frequência de alucinações—casos em que a IA gera informações imprecisas ou fabricadas—durante os resumos documentais.
Tanto o GPT-4 quanto sua variante, o GPT-4 Turbo, apresentaram um desempenho notável, com uma taxa de precisão de 97% e uma taxa de alucinação mínima de apenas 3%. Em segundo lugar, o GPT-3.5 Turbo mostrou uma precisão impressionante de 96,5% e uma taxa de alucinação um pouco mais alta, de 3,5%.
Entre os concorrentes não OpenAI, a versão de 70 bilhões de parâmetros do Llama 2 da Meta se destacou, alcançando uma pontuação de precisão de 94,9% e uma taxa de alucinação de apenas 5,1%. Em contrapartida, os modelos do Google apresentaram um desempenho insatisfatório na classificação. O Google Palm 2 registrou uma precisão de 87,9% e uma taxa de alucinação de 12,1%, enquanto sua versão refinada para chat caiu consideravelmente, apresentando apenas 72,8% de precisão e a maior taxa de alucinação de 27,2%.
Vale ressaltar que o Google Palm 2 Chat gerou a maior contagem média de palavras por resumo, com 221 palavras, enquanto o GPT-4 produziu uma média de 81 palavras por resumo.
Metodologia de Avaliação
A avaliação da Vectara, destinada a identificar alucinações nos resultados de LLMs, utilizou conjuntos de dados de código aberto. A empresa testou cada modelo em 1.000 documentos curtos, solicitando resumos com base apenas no conteúdo fornecido. No entanto, apenas 831 desses documentos foram resumidos por todos os modelos, pois os restantes foram filtrados devido a restrições de conteúdo. Para os documentos compartilhados entre todos os modelos, a Vectara calculou as taxas de precisão e alucinação.
É importante notar que, embora o conteúdo testado fosse livre de material ilícito e 'não seguro para o trabalho', a presença de determinadas palavras-chave ocasionou restrições de conteúdo em alguns modelos.
Enfrentando Desafios de Alucinação
As alucinações representam um obstáculo significativo para a adoção generalizada da IA generativa nas empresas. Shane Connelly, chefe de produtos da Vectara, destacou em um post no blog a dificuldade histórica em quantificar alucinações de maneira eficaz. Tentativas anteriores muitas vezes foram muito abstratas ou envolveram temas controversos, limitando sua aplicação prática para os negócios.
O Modelo de Avaliação de Alucinações criado pela Vectara é de código aberto, permitindo que as organizações o utilizem para avaliar a confiabilidade de seus modelos de linguagem em estruturas de Geração Aumentada por Recuperação (RAG). Este modelo está disponível através do Hugging Face, possibilitando aos usuários personalizá-lo conforme suas necessidades únicas.
Como Connelly enfatiza, "Nosso objetivo é equipar as empresas com insights necessários para implementar sistemas generativos de forma confiante por meio de análises detalhadas e quantificadas." Ao proporcionar uma compreensão mais clara dos resultados da IA, as empresas podem navegar melhor nas nuances da tecnologia de IA generativa.