O GenRM da DeepMind Melhora a Precisão dos LLMs por meio da Autoverificação de Resultados

Home Notícias de IA O GenRM da DeepMind Melhora a Precisão dos LLMs por meio da Autoverificação de Resultados

Updated on setembro 2 2024

Modelos de linguagem de grande escala (LLMs) frequentemente enfrentam erros factuais e lógicos, especialmente em tarefas de raciocínio complexo. Para contornar esse problema, pesquisadores frequentemente implementam verificadores ou modelos de recompensa para avaliar e selecionar as respostas mais precisas de um conjunto de saídas geradas pelos LLMs.

Um artigo recente de pesquisadores do Google DeepMind, da Universidade de Toronto, Mila e da Universidade da Califórnia, Los Angeles apresenta o GenRM, uma abordagem inovadora que aproveita as capacidades gerativas dos LLMs para aprimorar os processos de verificação. O GenRM é uma ferramenta valiosa para aplicações baseadas em LLM, onde os métodos de verificação tradicionais não são suficientes.

Limitações dos Verificadores e Modelos de Recompensa Clássicos

Uma abordagem comum para aumentar a precisão dos LLMs envolve gerar várias respostas candidatas e utilizar um componente distinto para identificar a melhor. Isso exige um verificador ou modelo de recompensa confiável. Normalmente, verificadores baseados em LLMs são treinados como modelos de recompensa discriminativos (RMs) que atribuem pontuações numéricas para avaliar se as soluções candidatas estão corretas ou incorretas. No entanto, esses RMs não aproveitam plenamente as forças inerentes dos LLMs em gerar e processar respostas.

“Embora modelos de recompensa clássicos / verificadores sejam treinados por ajuste fino de LLMs, eles não utilizam as capacidades de geração de texto para as quais os LLMs foram fundamentalmente projetados,” explica Rishabh Agarwal, coautor do artigo e Cientista de Pesquisa Sênior na DeepMind.

Outra técnica comum, LLM-as-a-Judge, utiliza métodos avançados de prompting para avaliar respostas. Embora essa abordagem ofereça flexibilidade, ela carece das capacidades adquiridas por modelos de recompensa durante o treinamento.

Modelos de Recompensa Gerativos

O GenRM da DeepMind apresenta uma alternativa ao treinar verificadores através da previsão do próximo token, aproveitando as forças gerativas dos LLMs. “Treinar RMs via previsão do próximo token permite que aproveitemos os inúmeros benefícios dos LLMs gerativos,” afirma Agarwal. “Demonstramos que o mesmo modelo pode verificar e gerar soluções, utilizando raciocínio em cadeia antes da verificação para aumentar a precisão.”

No GenRM, a decisão de verificação é expressa como um token. Por exemplo, para criar uma pontuação para uma solução, o verificador utiliza um prompt como "A resposta está correta?" e representa a pontuação como a probabilidade de um token textual (por exemplo, "Sim" ou "Não") com base no contexto.

Dado que a verificação frequentemente envolve raciocínio complexo, verificadores gerativos podem se beneficiar significativamente de técnicas avançadas de prompting, como raciocínio em cadeia (CoT), que incentivam o modelo a expor seu pensamento antes de chegar a uma resposta.

"Especificamente, podemos gerar etapas intermediárias de raciocínio ou críticas (CoT) antes de decidir sobre a correção da solução, potencialmente revelando erros sutis negligenciados por verificadores diretos,” afirmam os pesquisadores.

As razões CoT para treinar o modelo GenRM podem ser derivadas de entrada humana ou de outro LLM. Durante a inferência, o GenRM primeiro produz uma razão CoT e depois utiliza a probabilidade do token "Sim" para determinar uma pontuação de correção.

Para aprimorar ainda mais a precisão dos verificadores CoT, os pesquisadores utilizaram votação majoritária. Eles amostraram várias cadeias CoT e calcularam a média da pontuação "Sim" em todas as amostras, otimizando efetivamente o cálculo no momento do teste.

“O GenRM pode ser conceitualizado como uma fusão entre LLM-as-a-Judge e verificadores clássicos; ele representa um LLM-as-a-Judge treinado em dados de verificação específicos do domínio,” explica Agarwal. “Assim, o GenRM é adequado para qualquer área onde LLMs com prompting padrão sejam insuficientes.”

GenRM em Ação

Para avaliar a eficácia do GenRM, os pesquisadores da DeepMind testaram-no em diversas tarefas de raciocínio, incluindo concatenação de últimas letras, ordenação de palavras e problemas matemáticos. Eles compararam o GenRM com métodos padrão, incluindo modelos de recompensa discriminativos, LLM-as-a-Judge e “autoconsistência,” onde o modelo gera várias respostas e seleciona a mais frequente.

Em todas as tarefas, o GenRM utilizando CoT superou consistentemente os métodos alternativos por vários pontos percentuais, incluindo modelos de recompensa discriminativos especialmente treinados. No benchmark de raciocínio matemático GSM8K, um modelo Gemma-9B treinado para GenRM alcançou uma taxa de resolução de problemas de 92,8%, superando o desempenho do GPT-4 e do Gemini 1.5 Pro.

"Unificando a geração de soluções com a verificação através do objetivo de previsão do próximo token, o GenRM melhora consistentemente o desempenho de verificação em todas as tarefas," observam os pesquisadores. "Essa melhoria é evidente tanto para verificadores gerativos diretos quanto para os baseados em CoT, indicando que ensinar o verificador a imitar soluções corretas geralmente é benéfico."

Os experimentos também revelaram que o GenRM escala de forma favorável com o aumento do tamanho do conjunto de dados e capacidade do modelo. Além disso, o GenRM com CoT continua a mostrar melhorias ao amostrar um número maior de respostas, oferecendo aos desenvolvedores de aplicações LLM maior flexibilidade para equilibrar precisão e custos computacionais.

“Comparado a verificadores clássicos, o GenRM pode superá-los utilizando os mesmos dados ao treinar conjuntamente em geração e verificação, e o treinamento do GenRM envolve apenas ajuste fino padrão,” afirma Agarwal. “No entanto, para aproveitar totalmente as capacidades do GenRM, precisamos de críticas ou razões de verificação que esclareçam o rótulo de recompensa. Para dados de alta qualidade, isso pode envolver entrada humana, mas uma solução mais escalável envolveria razões geradas por LLM sintético.”

Direções futuras para o GenRM poderiam incluir a escalabilidade de razões de verificação sintéticas para tarefas de geração abertas, a integração do GenRM em pipelines de aprendizado por reforço, e a utilização de capacidades avançadas de LLM, como aprendizado com poucos exemplos, geração aumentada por recuperação, ReAct, e geração e execução de código para aprimorar ainda mais a verificação.

Autores mais vendidos criticam a posição neutra da National Novel Writing Month em relação à IA

Aprimorando Consultas em Conjuntos de Dados Complexos: Como a Geração Aumentada por Tabelas Supera o Text-to-SQL

Most people like

SummaryGenerator.io

68.6K

Resuma facilmente qualquer texto com apenas um clique! Com nossa ferramenta intuitiva, você pode destilar rapidamente documentos, artigos e relatórios extensos em resumos concisos que destacam os principais pontos. Agilize seu processo de leitura e economize tempo valioso sem sacrificar a compreensão. Perfeito para estudantes, profissionais e qualquer pessoa que deseja compreender informações mais rapidamente. Comece a transformar sua experiência de leitura hoje!

gerador de resumos Summarizer

Nooks

62.2K

No ambiente de negócios acelerado de hoje, maximizar a produtividade de vendas é essencial para o sucesso. Uma plataforma de produtividade de vendas impulsionada por IA utiliza tecnologia avançada para otimizar processos de vendas, melhorar o desempenho da equipe e impulsionar o crescimento da receita. Ao automatizar tarefas repetitivas, fornecer insights valiosos e facilitar um melhor engajamento com os clientes, essa solução inovadora capacita as equipes de vendas a se concentrarem no que fazem de melhor—fechar negócios. Junte-se a nós enquanto exploramos como a integração da IA na sua estratégia de vendas pode transformar sua abordagem à produtividade e proporcionar resultados mensuráveis.

Discador paralelo com inteligência artificial Sales Assistant

FreeAdCopy

85.5K

Revolucione sua estratégia de publicidade com nossa ferramenta de IA de ponta, projetada para gerar instantaneamente textos publicitários cativantes. Transforme a forma como você cria conteúdo de marketing, garantindo que sua mensagem ressoe com seu público e economize tempo e esforço. Descubra o poder da inteligência artificial na criação de anúncios eficazes que aumentam o engajamento e potencializam as conversões.

Gerador de texto com IA AI Advertising Assistant

Zeda.io

57.5K

Apresentamos o super app definitivo para equipes de produtos! Planeje, construa e itere seus produtos de maneira fácil para aumentar a eficiência e impulsionar o sucesso. Otimize seu fluxo de trabalho e colabore de forma integrada com nossas ferramentas inovadoras, projetadas especificamente para o desenvolvimento de produtos.

equipes de produto AI Product Description Generator

Find AI tools in YBX