Mejorando el Razonamiento de la IA Generativa: Google DeepMind Presenta la Tecnología GenRM

Google DeepMind lanza GenRM, un Evaluador Generativo para Mejorar las Capacidades de Razonamiento de la IA

El 27 de agosto de 2023, el equipo de Google DeepMind publicó un artículo en arXiv donde presenta su innovador evaluador generativo, GenRM. Este nuevo modelo de recompensa está diseñado para mejorar significativamente las capacidades de razonamiento de la IA generativa.

Actualmente, el método más utilizado para mejorar los modelos de lenguaje grandes (LLMs) es el enfoque "Best-of-N". Esta técnica consiste en generar N soluciones candidatas, que luego son clasificadas por un evaluador para determinar la mejor opción. Sin embargo, los evaluadores tradicionales de LLMs suelen funcionar solo como clasificadores discriminativos, sin aprovechar completamente las capacidades de generación de texto de los LLMs preentrenados.

Para superar esta limitación, el equipo de DeepMind ha entrenado al evaluador utilizando la predicción del siguiente token, integrando tanto la validación como la generación de soluciones. GenRM ofrece varias ventajas distintivas sobre los evaluadores convencionales:

- Integración fluida de ajustes de instrucciones

- Soporte para razonamiento encadenado

- Cálculo de tiempo adicional de razonamiento mediante votación de mayoría

En tareas que implican algoritmos y razonamiento matemático básico, GenRM superó tanto a los evaluadores discriminativos como a los evaluadores LLM-as-a-Judge al ser probado junto con evaluadores basados en Gemma, logrando un aumento en la tasa de éxito para la resolución de problemas del 16% al 64%.

Google DeepMind afirma que GenRM representa una evolución significativa en los sistemas de recompensa de la IA, mejorando particularmente la capacidad para prevenir conductas fraudulentas potenciales en el entrenamiento de nuevos modelos. Este avance resalta la necesidad de refinar los modelos de recompensa para garantizar que los resultados de la IA cumplan con los estándares de responsabilidad social.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles