Mientras que los modelos de lenguaje grande (LLMs) están mejorando en la realización de tareas complejas, a menudo tienen dificultades para proporcionar respuestas precisas en el primer intento. Esto ha generado un mayor interés en potenciar su capacidad de identificar y corregir errores, un proceso conocido como "auto-corrección". Sin embargo, los métodos actuales de auto-corrección son limitados y frecuentemente no cumplen con los requisitos del mundo real.
En un artículo innovador, investigadores de Google DeepMind presentan la Auto-Corrección a través del Aprendizaje por Refuerzo (SCoRe), un enfoque novedoso que mejora significativamente las habilidades de auto-corrección de los LLMs utilizando únicamente datos autogenerados. SCoRe tiene el potencial de aumentar la fiabilidad y robustez de los LLMs, abriendo nuevas vías para mejorar sus habilidades de razonamiento y resolución de problemas.
"La auto-corrección mejora enormemente el pensamiento humano," afirma Aviral Kumar, científico investigador en Google DeepMind. "Los humanos suelen tomarse su tiempo para contemplar múltiples ideas y corregir sus errores, llegando finalmente a la solución correcta. Queremos que los LLMs hagan lo mismo."
Un LLM ideal con sólidas capacidades de auto-corrección debería poder evaluar y perfeccionar sus propias respuestas hasta alcanzar la respuesta correcta. Esto es crucial, porque aunque los LLMs a menudo tienen el conocimiento necesario para resolver problemas, pueden luchar para utilizarlo de manera efectiva en sus respuestas iniciales.
"Desde una perspectiva fundamental de aprendizaje automático, no esperamos que los LLMs resuelvan problemas difíciles en un solo intento," explica Kumar. "Por lo tanto, queremos que los LLMs inviertan más esfuerzo computacional en pensar y auto-corregirse para tener éxito en problemas desafiantes."
Los intentos anteriores de habilitar la auto-corrección en LLMs han dependido de la ingeniería de prompts o el ajuste fino de modelos, lo que habitualmente requiere retroalimentación o guía externa de un "oráculo". Estas técnicas existentes a menudo descuidan las capacidades intrínsecas de auto-corrección del modelo. Por ejemplo, los métodos de ajuste fino supervisado (SFT) dependen en gran medida de la retroalimentación de anotadores humanos o modelos más fuertes, limitando su aplicabilidad en escenarios del mundo real. Además, los métodos SFT a veces requieren múltiples modelos durante la inferencia para verificación, complicando la implementación.
La investigación de DeepMind indica que, aunque el SFT puede mejorar las salidas iniciales de un modelo, falla cuando el modelo debe revisar respuestas en varios pasos, un requisito común para problemas complejos. "Al final del entrenamiento, un modelo puede aprender a corregir los errores del modelo base, pero aún carecer de la capacidad para detectar sus propios errores," observa Kumar.
Otra desventaja del SFT es el potencial para un comportamiento no deseado, donde el modelo aprende a proporcionar la respuesta óptima en su primer intento sin ajustarla, incluso si es incorrecta. "Los modelos entrenados con SFT tienden a optar por una estrategia ‘directa’, en lugar de aprender el proceso de auto-corrección," añade.
Avances a través del Aprendizaje por Refuerzo
Para abordar estas limitaciones, los investigadores de DeepMind han recurrido al aprendizaje por refuerzo (RL). “Los LLMs actuales no realizan auto-corrección de manera efectiva,” afirma Kumar. “No están entrenados para reflexionar sobre errores pasados; en cambio, buscan producir la mejor respuesta a las preguntas. Así que desarrollamos métodos para la auto-corrección."
SCoRe enseña a un solo modelo a generar respuestas y corregir sus errores de forma independiente, sin necesidad de retroalimentación externa. Esto se logra entrenando únicamente con datos autogenerados, eliminando así la dependencia de información externa.
Los enfoques previos de RL para la auto-corrección confiaban principalmente en interacciones de un solo turno, lo que resultó en colapso de comportamiento, donde el modelo ignoraba los comandos de auto-corrección a favor de proporcionar una respuesta basada en memoria. "Los métodos de RL ingenuos llevaron a modelos a ignorar el prompt de auto-corrección, enfocándose solo en producir una respuesta en cero intentos," dice Kumar.
Para combatir el colapso de comportamiento, SCoRe emplea un proceso de entrenamiento en dos etapas mejorado por técnicas de regularización. La primera etapa optimiza el rendimiento de corrección mientras asegura que las respuestas iniciales del modelo se alineen con las salidas del modelo base. La segunda etapa utiliza RL de múltiples turnos para mejorar el rendimiento tanto en intentos iniciales como en intentos posteriores, incorporando un sistema de recompensas que motiva al modelo a mejorar sus respuestas a través de múltiples iteraciones.
"Este enfoque dual asegura que el modelo no solo aprenda a ofrecer la mejor respuesta inicial y ajustarla mínimamente," explican los investigadores. "En general, SCoRe aprovecha de manera efectiva el conocimiento del modelo base para una auto-corrección positiva."
SCoRe en Acción
Los investigadores de DeepMind evaluaron SCoRe en comparación con los métodos de auto-corrección existentes utilizando datos autogenerados, enfatizando tareas de matemáticas y programación con benchmarks como MATH, MBPP y HumanEval.
SCoRe demostró mejoras significativas en las capacidades de auto-corrección de los modelos Gemini 1.0 Pro y 1.5 Flash, logrando una ganancia absoluta del 15.6% en el benchmark de MATH y una ganancia del 9.1% en HumanEval en comparación con el modelo base, superando otras técnicas de auto-corrección.
La mejora más notable fue la capacidad del modelo para refinar sus errores del primer al segundo intento, minimizando las alteraciones incorrectas a respuestas correctas. SCoRe también demostró ser altamente eficiente cuando se combinó con estrategias de escalado en tiempo de inferencia, mejorando aún más el rendimiento al distribuir el mismo presupuesto de inferencia en múltiples rondas de corrección.
Si bien la investigación se centra principalmente en tareas de codificación y razonamiento, el equipo cree que SCoRe puede tener aplicaciones más amplias. "Imagina modelos capaces de reconocer salidas potencialmente inseguras y mejorarlas de forma independiente antes de ser visibles para el usuario," sugiere Kumar.
Este trabajo subraya la importancia de enseñar a los LLMs cómo razonar y auto-corregirse, en lugar de simplemente mapear entradas a salidas, allanando el camino hacia sistemas de IA más capaces y confiables.