Índice de Alucinação Galileo Revela GPT-4 como o Modelo de Linguagem de Melhor Desempenho em Diversos Casos de Uso

Home Notícias de IA Índice de Alucinação Galileo Revela GPT-4 como o Modelo de Linguagem de Melhor Desempenho em Diversos Casos de Uso

Updated on novembro 15 2023

Um novo índice de alucinações da Galileo, com sede em San Francisco, que auxilia empresas no desenvolvimento, aprimoramento e monitoramento de aplicações de modelos de linguagem de grande escala (LLM), revela que o modelo GPT-4 da OpenAI apresenta o menor número de alucinações em diversas tarefas.

Publicada hoje, a pesquisa avaliou quase uma dúzia de LLMs de código aberto e fechado, incluindo a série Llama da Meta, comparando seus desempenhos para determinar qual modelo apresenta menos alucinações. Os resultados mostram que, embora todos os LLMs demonstrem comportamentos variados em diferentes tarefas, os modelos da OpenAI superam consistentemente os demais em múltiplos cenários. Este índice visa ajudar as empresas a superar o desafio das alucinações, que representa uma barreira significativa para a adoção generalizada de LLMs em setores críticos, como saúde.

Monitoramento das Alucinações em LLMs: Um Desafio Complexo

Apesar do grande interesse das empresas em IA generativa e na implementação de LLMs, frequentemente surgem lacunas de desempenho. Os LLMs podem gerar respostas que não são totalmente precisas, pois dependem de um banco de dados vetorial que determina termos e conceitos relacionados, independentemente da veracidade.

"Existem diversos fatores que influenciam a implantação de produtos de IA generativa. Por exemplo, sua ferramenta é projetada para gerar histórias a partir de prompts simples, ou é um chatbot que responde a consultas de clientes com base em informações proprietárias?" explicou Atindriyo Sanyal, cofundador e CTO da Galileo.

Atualmente, as empresas utilizam benchmarks para avaliar o desempenho dos modelos, mas a medição abrangente da ocorrência de alucinações faltava — até agora. Para abordar essa questão, Sanyal e sua equipe avaliaram onze LLMs proeminentes, tanto de código aberto quanto fechado, em três tarefas comuns: perguntas e respostas sem geração aumentada de recuperação (RAG), perguntas e respostas com RAG, e geração de texto longo.

"Selecionamos sete conjuntos de dados populares, reconhecidos como benchmarks rigorosos, para desafiar efetivamente as capacidades de cada modelo em relação às tarefas," observou Sanyal. Por exemplo, na categoria de Q&A sem RAG, eles utilizaram conjuntos de dados como TruthfulQA e TriviaQA para medir como os modelos lidam com perguntas gerais.

A equipe da Galileo reduziu os tamanhos dos conjuntos de dados e os anotou para estabelecer uma verdade básica para a avaliação de precisão. Eles utilizaram suas métricas proprietárias de Correção e Adesão ao Contexto para avaliar os resultados.

"Essas métricas permitem que engenheiros e cientistas de dados identifiquem alucinações de maneira eficaz. A Correção foca em erros lógicos e de raciocínio, medindo Q&A sem RAG e geração de texto longo, enquanto a Adesão ao Contexto avalia o raciocínio dentro de documentos fornecidos, usada para Q&A com RAG," detalhou Sanyal.

Visão Geral de Desempenho

Na categoria de perguntas e respostas sem recuperação, os modelos GPT da OpenAI se destacaram, com o GPT-4-0613 alcançando uma pontuação de correção de 0,77. Seguiram-se o GPT-3.5 Turbo-1106, GPT-3.5-Turbo-Instruct e GPT-3.5-Turbo-0613, com pontuações de 0,74, 0,70 e 0,70, respectivamente. O Llama-2-70b da Meta foi o concorrente mais próximo, com uma pontuação de 0,65, enquanto modelos como Llama-2-7b-chat e MPT-7b-instruct da Mosaic ML obtiveram pontuações mais baixas, em 0,52 e 0,40.

Para tarefas de recuperação, o GPT-4-0613 novamente emergiu como o melhor desempenho, com uma pontuação de adesão ao contexto de 0,76, seguido de perto pelo GPT-3.5-Turbo-0613 e -1106, com 0,75 e 0,74, respectivamente. Impressionantemente, o Zephyr-7b da Hugging Face obteve 0,71, superando o Llama-2-70b da Meta (pontuação = 0,68). O Falcon-40b dos Emirados Árabes e o MPT-7b da Mosaic ML mostraram espaço para melhorias, com pontuações de 0,60 e 0,58.

Nas tarefas de geração de texto longo, tanto o GPT-4-0613 quanto o Llama-2-70b alcançaram altas pontuações de 0,83 e 0,82, respectivamente, indicando mínimas alucinações. O GPT-3.5-Turbo-1106 igualou a pontuação do Llama, enquanto a versão 0613 ficou próxima, com 0,81. O MPT-7b ficou atrás, com 0,53.

Equilibrando Desempenho e Custos

Embora o GPT-4 da OpenAI mantenha desempenho superior em diversas tarefas, seu preço de API pode aumentar significativamente os custos. A Galileo sugere que as equipes considerem modelos GPT-3.5-Turbo para desempenho comparável a custos reduzidos. Além disso, modelos de código aberto como o Llama-2-70b podem oferecer um equilíbrio entre desempenho e acessibilidade.

É importante reconhecer que este índice evoluirá, com novos modelos surgindo e os existentes sendo aprimorados ao longo do tempo. A Galileo planeja atualizar o índice trimestralmente para fornecer rankings precisos de LLMs quanto à sua tendência a alucinar em várias tarefas.

"Nosso objetivo é fornecer às equipes uma base sólida para enfrentar as alucinações. Embora não esperemos que o Índice de Alucinações seja tratado como definitivo, esperamos que sirva como um ponto de partida abrangente para suas iniciativas de IA generativa," acrescentou Sanyal.

Ramp, a startup de cartões corporativos, se integra de forma fluida ao Microsoft Teams e ao 365 Copilot para aumentar a produtividade.

A Aposta Audaciosa da Microsoft em IA Genérica: Principais Anúncios do Ignite 2023

Most people like

Robopost AI

70.4K

Descubra nossa ferramenta inovadora impulsionada por inteligência artificial, projetada para ajudá-lo a criar conteúdo cativante para redes sociais de forma simples. Desbloqueie o potencial da inteligência artificial para aumentar seu engajamento online e elevar a presença da sua marca no ambiente digital. Com nossa solução, você pode gerar publicações atraentes que ressoam com seu público, impulsionando a interatividade e o crescimento.

mídias sociais AI Content Generator

Mapify

1.5M

Descubra nossa ferramenta de mapeamento mental online gratuita, alimentada por IA, projetada para aprimorar suas sessões de brainstorming e aumentar a criatividade. Com recursos intuitivos e algoritmos avançados, esta ferramenta ajuda você a organizar visualmente seus pensamentos e ideias com facilidade. Seja planejando um projeto, esboçando uma história ou estudando tópicos complexos, nossa ferramenta de mapeamento mental torna seu processo mais eficiente e transforma pensamentos caóticos em planos estruturados e acionáveis. Desperte o poder de sua imaginação e eleve sua produtividade com nossa plataforma fácil de usar e movida por inteligência artificial.

Gerador de mapas mentais com inteligência artificial AI Mind Mapping

AVCLabs Video Enhancer AI

199.7K

No mundo visual de hoje, imagens de alta qualidade são essenciais para atrair a atenção do público. Felizmente, os avanços em inteligência artificial (IA) estão revolucionando a maneira como melhoramos a qualidade de vídeos e fotos. Desde correção automática de cores até redução de ruído, essas ferramentas inovadoras oferecem aos profissionais criativos e entusiastas a capacidade de transformar seu conteúdo visual sem esforço. Descubra como a integração da tecnologia de IA pode elevar suas imagens e criar resultados impressionantes que se destacam no cenário competitivo atual.

Aprimorador de vídeo por IA AI Image Enhancer

Icons8

Um site gratuito que fornece ícones, clipart, ilustrações, fotos e músicas para seus projetos de design.

Criar Ícones AI Photo & Image Generator

Find AI tools in YBX