Um novo índice de alucinações da Galileo, com sede em San Francisco, que auxilia empresas no desenvolvimento, aprimoramento e monitoramento de aplicações de modelos de linguagem de grande escala (LLM), revela que o modelo GPT-4 da OpenAI apresenta o menor número de alucinações em diversas tarefas.
Publicada hoje, a pesquisa avaliou quase uma dúzia de LLMs de código aberto e fechado, incluindo a série Llama da Meta, comparando seus desempenhos para determinar qual modelo apresenta menos alucinações. Os resultados mostram que, embora todos os LLMs demonstrem comportamentos variados em diferentes tarefas, os modelos da OpenAI superam consistentemente os demais em múltiplos cenários. Este índice visa ajudar as empresas a superar o desafio das alucinações, que representa uma barreira significativa para a adoção generalizada de LLMs em setores críticos, como saúde.
Monitoramento das Alucinações em LLMs: Um Desafio Complexo
Apesar do grande interesse das empresas em IA generativa e na implementação de LLMs, frequentemente surgem lacunas de desempenho. Os LLMs podem gerar respostas que não são totalmente precisas, pois dependem de um banco de dados vetorial que determina termos e conceitos relacionados, independentemente da veracidade.
"Existem diversos fatores que influenciam a implantação de produtos de IA generativa. Por exemplo, sua ferramenta é projetada para gerar histórias a partir de prompts simples, ou é um chatbot que responde a consultas de clientes com base em informações proprietárias?" explicou Atindriyo Sanyal, cofundador e CTO da Galileo.
Atualmente, as empresas utilizam benchmarks para avaliar o desempenho dos modelos, mas a medição abrangente da ocorrência de alucinações faltava — até agora. Para abordar essa questão, Sanyal e sua equipe avaliaram onze LLMs proeminentes, tanto de código aberto quanto fechado, em três tarefas comuns: perguntas e respostas sem geração aumentada de recuperação (RAG), perguntas e respostas com RAG, e geração de texto longo.
"Selecionamos sete conjuntos de dados populares, reconhecidos como benchmarks rigorosos, para desafiar efetivamente as capacidades de cada modelo em relação às tarefas," observou Sanyal. Por exemplo, na categoria de Q&A sem RAG, eles utilizaram conjuntos de dados como TruthfulQA e TriviaQA para medir como os modelos lidam com perguntas gerais.
A equipe da Galileo reduziu os tamanhos dos conjuntos de dados e os anotou para estabelecer uma verdade básica para a avaliação de precisão. Eles utilizaram suas métricas proprietárias de Correção e Adesão ao Contexto para avaliar os resultados.
"Essas métricas permitem que engenheiros e cientistas de dados identifiquem alucinações de maneira eficaz. A Correção foca em erros lógicos e de raciocínio, medindo Q&A sem RAG e geração de texto longo, enquanto a Adesão ao Contexto avalia o raciocínio dentro de documentos fornecidos, usada para Q&A com RAG," detalhou Sanyal.
Visão Geral de Desempenho
Na categoria de perguntas e respostas sem recuperação, os modelos GPT da OpenAI se destacaram, com o GPT-4-0613 alcançando uma pontuação de correção de 0,77. Seguiram-se o GPT-3.5 Turbo-1106, GPT-3.5-Turbo-Instruct e GPT-3.5-Turbo-0613, com pontuações de 0,74, 0,70 e 0,70, respectivamente. O Llama-2-70b da Meta foi o concorrente mais próximo, com uma pontuação de 0,65, enquanto modelos como Llama-2-7b-chat e MPT-7b-instruct da Mosaic ML obtiveram pontuações mais baixas, em 0,52 e 0,40.
Para tarefas de recuperação, o GPT-4-0613 novamente emergiu como o melhor desempenho, com uma pontuação de adesão ao contexto de 0,76, seguido de perto pelo GPT-3.5-Turbo-0613 e -1106, com 0,75 e 0,74, respectivamente. Impressionantemente, o Zephyr-7b da Hugging Face obteve 0,71, superando o Llama-2-70b da Meta (pontuação = 0,68). O Falcon-40b dos Emirados Árabes e o MPT-7b da Mosaic ML mostraram espaço para melhorias, com pontuações de 0,60 e 0,58.
Nas tarefas de geração de texto longo, tanto o GPT-4-0613 quanto o Llama-2-70b alcançaram altas pontuações de 0,83 e 0,82, respectivamente, indicando mínimas alucinações. O GPT-3.5-Turbo-1106 igualou a pontuação do Llama, enquanto a versão 0613 ficou próxima, com 0,81. O MPT-7b ficou atrás, com 0,53.
Equilibrando Desempenho e Custos
Embora o GPT-4 da OpenAI mantenha desempenho superior em diversas tarefas, seu preço de API pode aumentar significativamente os custos. A Galileo sugere que as equipes considerem modelos GPT-3.5-Turbo para desempenho comparável a custos reduzidos. Além disso, modelos de código aberto como o Llama-2-70b podem oferecer um equilíbrio entre desempenho e acessibilidade.
É importante reconhecer que este índice evoluirá, com novos modelos surgindo e os existentes sendo aprimorados ao longo do tempo. A Galileo planeja atualizar o índice trimestralmente para fornecer rankings precisos de LLMs quanto à sua tendência a alucinar em várias tarefas.
"Nosso objetivo é fornecer às equipes uma base sólida para enfrentar as alucinações. Embora não esperemos que o Índice de Alucinações seja tratado como definitivo, esperamos que sirva como um ponto de partida abrangente para suas iniciativas de IA generativa," acrescentou Sanyal.