Aprimorando o Raciocínio da IA Generativa: Google DeepMind Lança a Tecnologia GenRM

Google DeepMind Introduz Avaliador Generativo GenRM para Aprimorar Habilidades de Raciocínio da IA

Em 27 de agosto de 2023, a equipe do Google DeepMind publicou um artigo no arXiv apresentando seu inovador avaliador generativo, o GenRM. Esse novo modelo de recompensa foi concebido para melhorar significativamente as capacidades de raciocínio da IA generativa.

Atualmente, a abordagem predominante para aprimorar grandes modelos de linguagem (LLMs) é o método "Best-of-N". Esta técnica consiste em gerar N soluções candidatas, que são classificadas por um avaliador para determinar a melhor opção. No entanto, os avaliadores tradicionais geralmente atuam apenas como classificadores discriminativos, não aproveitando plenamente as capacidades de geração de texto dos LLMs pré-treinados.

Para superar essa limitação, a equipe do DeepMind treinou o avaliador utilizando a previsão do próximo token, integrando validação e geração de soluções. O GenRM oferece várias vantagens distintas em relação aos avaliadores convencionais:

- Integração contínua de ajuste de instruções

- Suporte para raciocínio em cadeia

- Cálculo de tempo adicional de raciocínio usando votação majoritária

Em tarefas envolvendo algoritmos e raciocínio matemático fundamental, o GenRM superou tanto os avaliadores discriminativos quanto os avaliadores LLM-as-a-Judge, quando testado com avaliadores baseados em Gemma, alcançando um aumento na taxa de sucesso na resolução de problemas de 16% a 64%.

O Google DeepMind afirma que o GenRM representa uma evolução significativa nos sistemas de recompensa da IA, especialmente ao aumentar a capacidade de prevenir comportamentos fraudulentos potencialmente nas novas formações de modelos. Esse avanço destaca a necessidade de aprimorar os modelos de recompensa para garantir que as saídas da IA atendam aos padrões de responsabilidade social.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles