Los grandes modelos de lenguaje (LLMs) frecuentemente enfrentan errores fácticos y lógicos, especialmente en tareas que requieren razonamiento complejo. Para mitigar este problema, los investigadores a menudo implementan verificadores o modelos de recompensa que evalúan y seleccionan las respuestas más precisas de un conjunto de salidas generadas por los LLMs.
Un artículo reciente de investigadores de Google DeepMind, la Universidad de Toronto, Mila y la Universidad de California, Los Ángeles, presenta GenRM, un enfoque innovador que aprovecha las capacidades generativas de los LLMs para mejorar los procesos de verificación. GenRM se convierte en una herramienta valiosa para aplicaciones basadas en LLM donde los métodos de verificación tradicionales son insuficientes.
Limitaciones de los Verificadores y Modelos de Recompensa Clásicos
Un método común para aumentar la precisión de los LLM involucra generar múltiples respuestas candidatas y utilizar un componente distinto para identificar la mejor. Esto requiere un verificador o modelo de recompensa confiable. Generalmente, los verificadores basados en LLM se entrenan como modelos de recompensa discriminativos (RMs) que asignan puntajes numéricos para evaluar si las soluciones candidatas son correctas o incorrectas. Sin embargo, estos RMs no aprovechan plenamente las fortalezas inherentes de los LLMs en la generación y procesamiento de respuestas.
"Si bien los modelos de recompensa (RMs) clásicos se entrenan realizando un ajuste fino de los LLMs, no utilizan las capacidades de generación de texto para las que los LLMs están diseñados fundamentalmente," explica Rishabh Agarwal, coautor del artículo y científico de investigación senior en DeepMind.
Otra técnica común, LLM-as-a-Judge, utiliza métodos avanzados de enunciados para evaluar respuestas. Aunque este enfoque ofrece flexibilidad, carece de las capacidades que obtienen los modelos de recompensa durante su entrenamiento.
Modelos de Recompensa Generativos
GenRM de DeepMind presenta una alternativa al entrenar verificadores a través de la predicción del siguiente token, aprovechando las fortalezas generativas de los LLMs. "Entrenar RMs mediante la predicción del siguiente token les permite aprovechar los múltiples beneficios de los LLMs generativos," dice Agarwal. "Demostramos que el mismo modelo puede verificar y generar soluciones, utilizando razonamiento en cadena (CoT) antes de la verificación para mejorar la precisión."
En GenRM, la decisión de verificación se expresa como un token. Por ejemplo, para crear un puntaje para una solución, el verificador utiliza un enunciado como "¿Es correcta la respuesta?" y representa el puntaje como la probabilidad de un token de texto (por ejemplo, "Sí" o "No") basado en el contexto.
Dado que la verificación a menudo implica razonamiento complejo, los verificadores generativos pueden beneficiarse significativamente de técnicas avanzadas de enunciación como el razonamiento en cadena (CoT), que fomentan que el modelo exponga su proceso de pensamiento antes de llegar a una respuesta.
"Específicamente, podemos generar pasos de razonamiento intermedios o críticas (CoT) antes de decidir sobre la corrección de la solución, lo que potencialmente puede descubrir errores sutiles que los verificadores directos pasan por alto," afirman los investigadores.
Las justificaciones de CoT para entrenar el modelo GenRM pueden derivarse de la entrada humana o de otro LLM. Durante la inferencia, GenRM primero produce una justificación de CoT y luego utiliza la probabilidad del token "Sí" para determinar un puntaje de corrección.
Para mejorar aún más la precisión de los verificadores CoT, los investigadores aplicaron un voto mayoritario. Muestrearon múltiples cadenas de CoT y calcularon el puntaje promedio de "Sí" en todas las muestras, optimizando efectivamente el cómputo en tiempo de prueba.
“GenRM puede conceptualizarse como una fusión entre LLM-as-a-Judge y verificadores clásicos; representa un LLM-as-a-Judge entrenado en datos específicos de verificación,” explica Agarwal. “Así, GenRM es adecuado para cualquier área donde los LLMs con enunciados predefinidos sean insuficientes.”
GenRM en Acción
Para evaluar la efectividad de GenRM, los investigadores de DeepMind lo probaron en diversas tareas de razonamiento, incluyendo la concatenación de la última letra, clasificación de palabras y problemas matemáticos de palabras. Compararon GenRM con métodos estándar, incluidos modelos de recompensa discriminativos, LLM-as-a-Judge y “auto-consistencia,” donde el modelo genera múltiples respuestas y selecciona la más frecuente.
En todas las tareas, GenRM utilizando CoT superó consistentemente a los métodos alternativos en varios puntos porcentuales, incluidos los modelos de recompensa discriminativos especialmente entrenados. En el benchmark de razonamiento matemático GSM8K, un modelo Gemma-9B entrenado para GenRM logró una tasa de resolución de problemas del 92.8%, superando el rendimiento de GPT-4 y Gemini 1.5 Pro.
"Al unificar la generación de soluciones con la verificación a través del objetivo de predicción del siguiente token, GenRM mejora consistentemente el rendimiento de verificación en todas las tareas," señalan los investigadores. "Esta mejora es evidente tanto para los verificadores directos como para los generativos basados en CoT, lo que indica que enseñar al verificador a imitar soluciones correctas generalmente resulta beneficioso."
Los experimentos también revelaron que GenRM escala favorablemente con el aumento del tamaño del conjunto de datos y la capacidad del modelo. Además, GenRM con CoT sigue mostrando mejoras al muestrear un mayor número de respuestas, ofreciendo a los desarrolladores de aplicaciones LLM mayor flexibilidad para equilibrar precisión y costos computacionales.
"Comparado con los verificadores clásicos, GenRM puede superarlos utilizando los mismos datos al entrenar conjuntamente en generación y verificación, y el entrenamiento de GenRM implica simplemente un fino ajuste estándar," afirma Agarwal. "Sin embargo, para aprovechar plenamente las capacidades de GenRM, necesitamos críticas o justificaciones de verificación que aclaren la etiqueta de recompensa. Para datos de alta calidad, esto puede implicar entrada humana, pero una solución más escalable implicaría justificaciones generadas sintéticamente por LLM."
Las direcciones futuras para GenRM podrían incluir la escalación de justificaciones de verificación sintéticas para tareas de generación abierta, la integración de GenRM en tuberías de aprendizaje por refuerzo y la utilización de capacidades avanzadas de LLM, como el aprendizaje con pocos ejemplos, generación aumentada por recuperación, ReAct y generación y ejecución de código para mejorar aún más la verificación.