Modelos de linguagem de grande escala (LLMs) frequentemente enfrentam erros factuais e lógicos, especialmente em tarefas de raciocínio complexo. Para contornar esse problema, pesquisadores frequentemente implementam verificadores ou modelos de recompensa para avaliar e selecionar as respostas mais precisas de um conjunto de saídas geradas pelos LLMs.
Um artigo recente de pesquisadores do Google DeepMind, da Universidade de Toronto, Mila e da Universidade da Califórnia, Los Angeles apresenta o GenRM, uma abordagem inovadora que aproveita as capacidades gerativas dos LLMs para aprimorar os processos de verificação. O GenRM é uma ferramenta valiosa para aplicações baseadas em LLM, onde os métodos de verificação tradicionais não são suficientes.
Limitações dos Verificadores e Modelos de Recompensa Clássicos
Uma abordagem comum para aumentar a precisão dos LLMs envolve gerar várias respostas candidatas e utilizar um componente distinto para identificar a melhor. Isso exige um verificador ou modelo de recompensa confiável. Normalmente, verificadores baseados em LLMs são treinados como modelos de recompensa discriminativos (RMs) que atribuem pontuações numéricas para avaliar se as soluções candidatas estão corretas ou incorretas. No entanto, esses RMs não aproveitam plenamente as forças inerentes dos LLMs em gerar e processar respostas.
“Embora modelos de recompensa clássicos / verificadores sejam treinados por ajuste fino de LLMs, eles não utilizam as capacidades de geração de texto para as quais os LLMs foram fundamentalmente projetados,” explica Rishabh Agarwal, coautor do artigo e Cientista de Pesquisa Sênior na DeepMind.
Outra técnica comum, LLM-as-a-Judge, utiliza métodos avançados de prompting para avaliar respostas. Embora essa abordagem ofereça flexibilidade, ela carece das capacidades adquiridas por modelos de recompensa durante o treinamento.
Modelos de Recompensa Gerativos
O GenRM da DeepMind apresenta uma alternativa ao treinar verificadores através da previsão do próximo token, aproveitando as forças gerativas dos LLMs. “Treinar RMs via previsão do próximo token permite que aproveitemos os inúmeros benefícios dos LLMs gerativos,” afirma Agarwal. “Demonstramos que o mesmo modelo pode verificar e gerar soluções, utilizando raciocínio em cadeia antes da verificação para aumentar a precisão.”
No GenRM, a decisão de verificação é expressa como um token. Por exemplo, para criar uma pontuação para uma solução, o verificador utiliza um prompt como "A resposta está correta?" e representa a pontuação como a probabilidade de um token textual (por exemplo, "Sim" ou "Não") com base no contexto.
Dado que a verificação frequentemente envolve raciocínio complexo, verificadores gerativos podem se beneficiar significativamente de técnicas avançadas de prompting, como raciocínio em cadeia (CoT), que incentivam o modelo a expor seu pensamento antes de chegar a uma resposta.
"Especificamente, podemos gerar etapas intermediárias de raciocínio ou críticas (CoT) antes de decidir sobre a correção da solução, potencialmente revelando erros sutis negligenciados por verificadores diretos,” afirmam os pesquisadores.
As razões CoT para treinar o modelo GenRM podem ser derivadas de entrada humana ou de outro LLM. Durante a inferência, o GenRM primeiro produz uma razão CoT e depois utiliza a probabilidade do token "Sim" para determinar uma pontuação de correção.
Para aprimorar ainda mais a precisão dos verificadores CoT, os pesquisadores utilizaram votação majoritária. Eles amostraram várias cadeias CoT e calcularam a média da pontuação "Sim" em todas as amostras, otimizando efetivamente o cálculo no momento do teste.
“O GenRM pode ser conceitualizado como uma fusão entre LLM-as-a-Judge e verificadores clássicos; ele representa um LLM-as-a-Judge treinado em dados de verificação específicos do domínio,” explica Agarwal. “Assim, o GenRM é adequado para qualquer área onde LLMs com prompting padrão sejam insuficientes.”
GenRM em Ação
Para avaliar a eficácia do GenRM, os pesquisadores da DeepMind testaram-no em diversas tarefas de raciocínio, incluindo concatenação de últimas letras, ordenação de palavras e problemas matemáticos. Eles compararam o GenRM com métodos padrão, incluindo modelos de recompensa discriminativos, LLM-as-a-Judge e “autoconsistência,” onde o modelo gera várias respostas e seleciona a mais frequente.
Em todas as tarefas, o GenRM utilizando CoT superou consistentemente os métodos alternativos por vários pontos percentuais, incluindo modelos de recompensa discriminativos especialmente treinados. No benchmark de raciocínio matemático GSM8K, um modelo Gemma-9B treinado para GenRM alcançou uma taxa de resolução de problemas de 92,8%, superando o desempenho do GPT-4 e do Gemini 1.5 Pro.
"Unificando a geração de soluções com a verificação através do objetivo de previsão do próximo token, o GenRM melhora consistentemente o desempenho de verificação em todas as tarefas," observam os pesquisadores. "Essa melhoria é evidente tanto para verificadores gerativos diretos quanto para os baseados em CoT, indicando que ensinar o verificador a imitar soluções corretas geralmente é benéfico."
Os experimentos também revelaram que o GenRM escala de forma favorável com o aumento do tamanho do conjunto de dados e capacidade do modelo. Além disso, o GenRM com CoT continua a mostrar melhorias ao amostrar um número maior de respostas, oferecendo aos desenvolvedores de aplicações LLM maior flexibilidade para equilibrar precisão e custos computacionais.
“Comparado a verificadores clássicos, o GenRM pode superá-los utilizando os mesmos dados ao treinar conjuntamente em geração e verificação, e o treinamento do GenRM envolve apenas ajuste fino padrão,” afirma Agarwal. “No entanto, para aproveitar totalmente as capacidades do GenRM, precisamos de críticas ou razões de verificação que esclareçam o rótulo de recompensa. Para dados de alta qualidade, isso pode envolver entrada humana, mas uma solução mais escalável envolveria razões geradas por LLM sintético.”
Direções futuras para o GenRM poderiam incluir a escalabilidade de razões de verificação sintéticas para tarefas de geração abertas, a integração do GenRM em pipelines de aprendizado por reforço, e a utilização de capacidades avançadas de LLM, como aprendizado com poucos exemplos, geração aumentada por recuperação, ReAct, e geração e execução de código para aprimorar ainda mais a verificação.