Google DeepMind Introduz Avaliador Generativo GenRM para Aprimorar Habilidades de Raciocínio da IA
Em 27 de agosto de 2023, a equipe do Google DeepMind publicou um artigo no arXiv apresentando seu inovador avaliador generativo, o GenRM. Esse novo modelo de recompensa foi concebido para melhorar significativamente as capacidades de raciocínio da IA generativa.
Atualmente, a abordagem predominante para aprimorar grandes modelos de linguagem (LLMs) é o método "Best-of-N". Esta técnica consiste em gerar N soluções candidatas, que são classificadas por um avaliador para determinar a melhor opção. No entanto, os avaliadores tradicionais geralmente atuam apenas como classificadores discriminativos, não aproveitando plenamente as capacidades de geração de texto dos LLMs pré-treinados.
Para superar essa limitação, a equipe do DeepMind treinou o avaliador utilizando a previsão do próximo token, integrando validação e geração de soluções. O GenRM oferece várias vantagens distintas em relação aos avaliadores convencionais:
- Integração contínua de ajuste de instruções
- Suporte para raciocínio em cadeia
- Cálculo de tempo adicional de raciocínio usando votação majoritária
Em tarefas envolvendo algoritmos e raciocínio matemático fundamental, o GenRM superou tanto os avaliadores discriminativos quanto os avaliadores LLM-as-a-Judge, quando testado com avaliadores baseados em Gemma, alcançando um aumento na taxa de sucesso na resolução de problemas de 16% a 64%.
O Google DeepMind afirma que o GenRM representa uma evolução significativa nos sistemas de recompensa da IA, especialmente ao aumentar a capacidade de prevenir comportamentos fraudulentos potencialmente nas novas formações de modelos. Esse avanço destaca a necessidade de aprimorar os modelos de recompensa para garantir que as saídas da IA atendam aos padrões de responsabilidade social.