Evaluación Humana de Modelos de Lenguaje Grandes: La Necesidad de Innovación
La evaluación humana ha sido durante mucho tiempo el estándar de oro para evaluar la calidad y precisión de los modelos de lenguaje grandes (LLMs), especialmente en tareas abiertas como la escritura creativa y la programación. Sin embargo, este método suele ser lento, costoso y requiere experiencia especializada.
Presentando el Evaluador Autoenseñado
Investigadores de Meta FAIR han desarrollado un enfoque innovador llamado Evaluador Autoenseñado, que utiliza datos sintéticos para entrenar evaluadores de LLM sin anotaciones humanas. Aunque presenta algunas limitaciones, este método promete mejorar la eficiencia y escalabilidad de la evaluación de LLM, especialmente para empresas que buscan construir modelos personalizados.
Los Desafíos de la Evaluación de LLM
Los LLM a menudo funcionan como evaluadores para alinear otros modelos con las preferencias humanas o mejorar su propio rendimiento durante el entrenamiento. Esto es crucial en tareas con múltiples resultados válidos, comunes en escenarios creativos y de instrucciones complejas. Tradicionalmente, entrenar evaluadores de LLM precisos ha dependido de extensos datos anotados por humanos, un proceso costoso y que consume tiempo, lo que dificulta el desarrollo rápido de aplicaciones basadas en LLM.
Cómo Funciona el Evaluador Autoenseñado
El Evaluador Autoenseñado aborda este desafío al eliminar la necesidad de datos etiquetados por humanos. Se basa en el concepto de LLM-como-Juez, donde el modelo recibe una entrada, dos respuestas posibles y un aviso de evaluación para determinar cuál respuesta es superior al generar una cadena de razonamiento.
El proceso comienza con un LLM inicial y una colección sustancial de instrucciones escritas por humanos sin etiquetar, comúnmente vistas en sistemas de producción. El evaluador selecciona un conjunto de instrucciones de este pool no curado y genera pares de respuestas: una "elegida" como de mayor calidad y la otra "rechazada".
El evaluador se entrena de manera iterativa. En cada iteración, se muestrean múltiples trazas de razonamiento y juicios de LLM-como-Juez. Las cadenas de razonamiento correctas se incluyen en el conjunto de entrenamiento, que comprende la entrada, respuestas veraces y falsas, y cadenas de juicio. El modelo se ajusta en este nuevo conjunto de datos, lo que conduce a una actualización del modelo para las iteraciones posteriores.
Pruebas del Evaluador Autoenseñado
Los investigadores iniciaron su Evaluador Autoenseñado utilizando el modelo Llama 3-70B-Instruct y emplearon el conjunto de datos WildChat, seleccionando más de 20,000 ejemplos de categorías de razonamiento. También exploraron otros conjuntos de datos y tareas, incluyendo programación y problemas matemáticos verbales, permitiendo que el pipeline de autoenseñanza generara de forma autónoma todas las respuestas y el conjunto de entrenamiento.
Sus experimentos demostraron que el Evaluador Autoenseñado mejoró significativamente la precisión del modelo base en el benchmark RewardBench, incrementando su rendimiento del 75.4% al 88.7% en cinco iteraciones, sin ninguna anotación humana. Esta precisión rivaliza, y en algunos casos supera, a modelos entrenados con datos etiquetados por humanos, incluso superando a ciertos modelos de frontera privados. Mejoras similares se observaron en el benchmark MT-Bench, que evalúa el rendimiento de LLM en conversaciones multilaterales.
Implicaciones para las Empresas
Esta investigación se alinea con una creciente tendencia en el uso de LLM en bucles de auto-mejora automatizados, reduciendo el esfuerzo manual en la creación de modelos de alto rendimiento y facilitando el desarrollo más escalable de aplicaciones de IA. El Evaluador Autoenseñado es particularmente beneficioso para las empresas con grandes cantidades de datos corporativos sin etiquetar que buscan afinar modelos sin una extensa anotación manual.
Sin embargo, es vital reconocer algunas limitaciones. El enfoque depende de un modelo semilla inicial que esté ajustado a las instrucciones y alineado con las preferencias humanas. Los investigadores utilizaron el modelo Mixtral 8x22B mezclado de expertos para su conjunto de datos de entrenamiento inicial, destacando la necesidad de una selección cuidadosa de modelos base y semilla relevantes según datos y tareas específicas.
Los benchmarks estandarizados pueden no captar completamente las capacidades y limitaciones de un LLM. Además, los bucles completamente automatizados que dependen únicamente de LLM para la autoevaluación corren el riesgo de optimizarse para benchmarks mientras rinden poco en aplicaciones del mundo real. Las empresas deben realizar pruebas manuales en varias etapas del entrenamiento para garantizar que los modelos cumplan con sus estándares de rendimiento deseados.