GenRM de DeepMind Mejora la Precisión de los LLM a Través de la Autocomprobación de Salidas

Home Noticias de IA GenRM de DeepMind Mejora la Precisión de los LLM a Través de la Autocomprobación de Salidas

Updated on septiembre 2 2024

Los grandes modelos de lenguaje (LLMs) frecuentemente enfrentan errores fácticos y lógicos, especialmente en tareas que requieren razonamiento complejo. Para mitigar este problema, los investigadores a menudo implementan verificadores o modelos de recompensa que evalúan y seleccionan las respuestas más precisas de un conjunto de salidas generadas por los LLMs.

Un artículo reciente de investigadores de Google DeepMind, la Universidad de Toronto, Mila y la Universidad de California, Los Ángeles, presenta GenRM, un enfoque innovador que aprovecha las capacidades generativas de los LLMs para mejorar los procesos de verificación. GenRM se convierte en una herramienta valiosa para aplicaciones basadas en LLM donde los métodos de verificación tradicionales son insuficientes.

Limitaciones de los Verificadores y Modelos de Recompensa Clásicos

Un método común para aumentar la precisión de los LLM involucra generar múltiples respuestas candidatas y utilizar un componente distinto para identificar la mejor. Esto requiere un verificador o modelo de recompensa confiable. Generalmente, los verificadores basados en LLM se entrenan como modelos de recompensa discriminativos (RMs) que asignan puntajes numéricos para evaluar si las soluciones candidatas son correctas o incorrectas. Sin embargo, estos RMs no aprovechan plenamente las fortalezas inherentes de los LLMs en la generación y procesamiento de respuestas.

"Si bien los modelos de recompensa (RMs) clásicos se entrenan realizando un ajuste fino de los LLMs, no utilizan las capacidades de generación de texto para las que los LLMs están diseñados fundamentalmente," explica Rishabh Agarwal, coautor del artículo y científico de investigación senior en DeepMind.

Otra técnica común, LLM-as-a-Judge, utiliza métodos avanzados de enunciados para evaluar respuestas. Aunque este enfoque ofrece flexibilidad, carece de las capacidades que obtienen los modelos de recompensa durante su entrenamiento.

Modelos de Recompensa Generativos

GenRM de DeepMind presenta una alternativa al entrenar verificadores a través de la predicción del siguiente token, aprovechando las fortalezas generativas de los LLMs. "Entrenar RMs mediante la predicción del siguiente token les permite aprovechar los múltiples beneficios de los LLMs generativos," dice Agarwal. "Demostramos que el mismo modelo puede verificar y generar soluciones, utilizando razonamiento en cadena (CoT) antes de la verificación para mejorar la precisión."

En GenRM, la decisión de verificación se expresa como un token. Por ejemplo, para crear un puntaje para una solución, el verificador utiliza un enunciado como "¿Es correcta la respuesta?" y representa el puntaje como la probabilidad de un token de texto (por ejemplo, "Sí" o "No") basado en el contexto.

Dado que la verificación a menudo implica razonamiento complejo, los verificadores generativos pueden beneficiarse significativamente de técnicas avanzadas de enunciación como el razonamiento en cadena (CoT), que fomentan que el modelo exponga su proceso de pensamiento antes de llegar a una respuesta.

"Específicamente, podemos generar pasos de razonamiento intermedios o críticas (CoT) antes de decidir sobre la corrección de la solución, lo que potencialmente puede descubrir errores sutiles que los verificadores directos pasan por alto," afirman los investigadores.

Las justificaciones de CoT para entrenar el modelo GenRM pueden derivarse de la entrada humana o de otro LLM. Durante la inferencia, GenRM primero produce una justificación de CoT y luego utiliza la probabilidad del token "Sí" para determinar un puntaje de corrección.

Para mejorar aún más la precisión de los verificadores CoT, los investigadores aplicaron un voto mayoritario. Muestrearon múltiples cadenas de CoT y calcularon el puntaje promedio de "Sí" en todas las muestras, optimizando efectivamente el cómputo en tiempo de prueba.

“GenRM puede conceptualizarse como una fusión entre LLM-as-a-Judge y verificadores clásicos; representa un LLM-as-a-Judge entrenado en datos específicos de verificación,” explica Agarwal. “Así, GenRM es adecuado para cualquier área donde los LLMs con enunciados predefinidos sean insuficientes.”

GenRM en Acción

Para evaluar la efectividad de GenRM, los investigadores de DeepMind lo probaron en diversas tareas de razonamiento, incluyendo la concatenación de la última letra, clasificación de palabras y problemas matemáticos de palabras. Compararon GenRM con métodos estándar, incluidos modelos de recompensa discriminativos, LLM-as-a-Judge y “auto-consistencia,” donde el modelo genera múltiples respuestas y selecciona la más frecuente.

En todas las tareas, GenRM utilizando CoT superó consistentemente a los métodos alternativos en varios puntos porcentuales, incluidos los modelos de recompensa discriminativos especialmente entrenados. En el benchmark de razonamiento matemático GSM8K, un modelo Gemma-9B entrenado para GenRM logró una tasa de resolución de problemas del 92.8%, superando el rendimiento de GPT-4 y Gemini 1.5 Pro.

"Al unificar la generación de soluciones con la verificación a través del objetivo de predicción del siguiente token, GenRM mejora consistentemente el rendimiento de verificación en todas las tareas," señalan los investigadores. "Esta mejora es evidente tanto para los verificadores directos como para los generativos basados en CoT, lo que indica que enseñar al verificador a imitar soluciones correctas generalmente resulta beneficioso."

Los experimentos también revelaron que GenRM escala favorablemente con el aumento del tamaño del conjunto de datos y la capacidad del modelo. Además, GenRM con CoT sigue mostrando mejoras al muestrear un mayor número de respuestas, ofreciendo a los desarrolladores de aplicaciones LLM mayor flexibilidad para equilibrar precisión y costos computacionales.

"Comparado con los verificadores clásicos, GenRM puede superarlos utilizando los mismos datos al entrenar conjuntamente en generación y verificación, y el entrenamiento de GenRM implica simplemente un fino ajuste estándar," afirma Agarwal. "Sin embargo, para aprovechar plenamente las capacidades de GenRM, necesitamos críticas o justificaciones de verificación que aclaren la etiqueta de recompensa. Para datos de alta calidad, esto puede implicar entrada humana, pero una solución más escalable implicaría justificaciones generadas sintéticamente por LLM."

Las direcciones futuras para GenRM podrían incluir la escalación de justificaciones de verificación sintéticas para tareas de generación abierta, la integración de GenRM en tuberías de aprendizaje por refuerzo y la utilización de capacidades avanzadas de LLM, como el aprendizaje con pocos ejemplos, generación aumentada por recuperación, ReAct y generación y ejecución de código para mejorar aún más la verificación.

Los Autores Más Vendidos Critican la Postura Neutral sobre la IA del Mes Nacional de la Escritura de Novelas

Mejorando Consultas de Conjuntos de Datos Complejos: Cómo la Generación Aumentada por Tablas Supera el Text-to-SQL

Most people like

WinningHunter

554.5K

Descubre productos de dropshipping de alto rendimiento sin esfuerzo con la herramienta de espionaje de anuncios de WinningHunter. Analiza anuncios en Facebook y TikTok, monitorea ventas de tiendas y crea copys publicitarios atractivos utilizando tecnología de IA. Eleva tu éxito en dropshipping con el sólido conjunto de características de WinningHunter, diseñado para obtener resultados óptimos.

investigación de productos AI Product Description Generator

Smartvel

23.2K

Desbloqueando el Poder de las Soluciones de Contenido de Viaje Basadas en IA para Mejorar la Experiencia del Cliente Descubre cómo las soluciones de contenido de viaje impulsadas por IA pueden transformar tu experiencia del cliente. Al aprovechar algoritmos inteligentes y recomendaciones personalizadas, estas herramientas innovadoras mejoran el compromiso y agilizan el proceso de planificación de viajes. Sumérgete en el futuro de los viajes con soluciones diseñadas para elevar cada paso del viaje de tus clientes.

Contenido de viaje enriquecido con IA AI SEO Assistant

Immersive Translate

2.5M

Presentamos nuestra herramienta gratuita de traducción de páginas web y documentos bilingües, diseñada para hacer que las traducciones sean sencillas y accesibles. Ya sea que necesite convertir contenido de sitios web o documentos importantes, nuestra plataforma intuitiva garantiza una comunicación clara en múltiples idiomas, permitiéndole conectarse con una audiencia global sin esfuerzo. ¡Traduce con facilidad y mejora tu presencia en línea hoy mismo!

traducción Translate

Cramly.ai

338.8K

Cramly.ai es una plataforma educativa innovadora impulsada por inteligencia artificial, diseñada para mejorar la efectividad del estudio de los estudiantes. Con algoritmos inteligentes y estrategias de aprendizaje personalizadas, empodera a los estudiantes para optimizar sus hábitos de estudio y mejorar su rendimiento académico.

herramienta educativa AI Education Assistant

Find AI tools in YBX