El Evaluador Autodidacta de Meta Potencia a los LLMs para Generar Sus Propios Datos de Entrenamiento

Home Noticias de IA El Evaluador Autodidacta de Meta Potencia a los LLMs para Generar Sus Propios Datos de Entrenamiento

Evaluación Humana de Modelos de Lenguaje Grandes: La Necesidad de Innovación

La evaluación humana ha sido durante mucho tiempo el estándar de oro para evaluar la calidad y precisión de los modelos de lenguaje grandes (LLMs), especialmente en tareas abiertas como la escritura creativa y la programación. Sin embargo, este método suele ser lento, costoso y requiere experiencia especializada.

Presentando el Evaluador Autoenseñado

Investigadores de Meta FAIR han desarrollado un enfoque innovador llamado Evaluador Autoenseñado, que utiliza datos sintéticos para entrenar evaluadores de LLM sin anotaciones humanas. Aunque presenta algunas limitaciones, este método promete mejorar la eficiencia y escalabilidad de la evaluación de LLM, especialmente para empresas que buscan construir modelos personalizados.

Los Desafíos de la Evaluación de LLM

Los LLM a menudo funcionan como evaluadores para alinear otros modelos con las preferencias humanas o mejorar su propio rendimiento durante el entrenamiento. Esto es crucial en tareas con múltiples resultados válidos, comunes en escenarios creativos y de instrucciones complejas. Tradicionalmente, entrenar evaluadores de LLM precisos ha dependido de extensos datos anotados por humanos, un proceso costoso y que consume tiempo, lo que dificulta el desarrollo rápido de aplicaciones basadas en LLM.

Cómo Funciona el Evaluador Autoenseñado

El Evaluador Autoenseñado aborda este desafío al eliminar la necesidad de datos etiquetados por humanos. Se basa en el concepto de LLM-como-Juez, donde el modelo recibe una entrada, dos respuestas posibles y un aviso de evaluación para determinar cuál respuesta es superior al generar una cadena de razonamiento.

El proceso comienza con un LLM inicial y una colección sustancial de instrucciones escritas por humanos sin etiquetar, comúnmente vistas en sistemas de producción. El evaluador selecciona un conjunto de instrucciones de este pool no curado y genera pares de respuestas: una "elegida" como de mayor calidad y la otra "rechazada".

El evaluador se entrena de manera iterativa. En cada iteración, se muestrean múltiples trazas de razonamiento y juicios de LLM-como-Juez. Las cadenas de razonamiento correctas se incluyen en el conjunto de entrenamiento, que comprende la entrada, respuestas veraces y falsas, y cadenas de juicio. El modelo se ajusta en este nuevo conjunto de datos, lo que conduce a una actualización del modelo para las iteraciones posteriores.

Pruebas del Evaluador Autoenseñado

Los investigadores iniciaron su Evaluador Autoenseñado utilizando el modelo Llama 3-70B-Instruct y emplearon el conjunto de datos WildChat, seleccionando más de 20,000 ejemplos de categorías de razonamiento. También exploraron otros conjuntos de datos y tareas, incluyendo programación y problemas matemáticos verbales, permitiendo que el pipeline de autoenseñanza generara de forma autónoma todas las respuestas y el conjunto de entrenamiento.

Sus experimentos demostraron que el Evaluador Autoenseñado mejoró significativamente la precisión del modelo base en el benchmark RewardBench, incrementando su rendimiento del 75.4% al 88.7% en cinco iteraciones, sin ninguna anotación humana. Esta precisión rivaliza, y en algunos casos supera, a modelos entrenados con datos etiquetados por humanos, incluso superando a ciertos modelos de frontera privados. Mejoras similares se observaron en el benchmark MT-Bench, que evalúa el rendimiento de LLM en conversaciones multilaterales.

Implicaciones para las Empresas

Esta investigación se alinea con una creciente tendencia en el uso de LLM en bucles de auto-mejora automatizados, reduciendo el esfuerzo manual en la creación de modelos de alto rendimiento y facilitando el desarrollo más escalable de aplicaciones de IA. El Evaluador Autoenseñado es particularmente beneficioso para las empresas con grandes cantidades de datos corporativos sin etiquetar que buscan afinar modelos sin una extensa anotación manual.

Sin embargo, es vital reconocer algunas limitaciones. El enfoque depende de un modelo semilla inicial que esté ajustado a las instrucciones y alineado con las preferencias humanas. Los investigadores utilizaron el modelo Mixtral 8x22B mezclado de expertos para su conjunto de datos de entrenamiento inicial, destacando la necesidad de una selección cuidadosa de modelos base y semilla relevantes según datos y tareas específicas.

Los benchmarks estandarizados pueden no captar completamente las capacidades y limitaciones de un LLM. Además, los bucles completamente automatizados que dependen únicamente de LLM para la autoevaluación corren el riesgo de optimizarse para benchmarks mientras rinden poco en aplicaciones del mundo real. Las empresas deben realizar pruebas manuales en varias etapas del entrenamiento para garantizar que los modelos cumplan con sus estándares de rendimiento deseados.

Crea tu propio robot de IA: ¡Descubre cómo el tutorial de LeRobot de Hugging Face transforma la robótica!

Salesforce lanza modelos de IA multimodal de código abierto 'xGen-MM' para mejorar la comprensión del lenguaje visual.

Most people like

FlyPix AI

8.9K

Desbloqueando una Inteligencia Espacial Precisa con Soluciones Geoespaciales Impulsadas por IA Descubre cómo las soluciones geoespaciales de vanguardia impulsadas por IA están transformando la inteligencia espacial. Al aprovechar algoritmos avanzados y análisis de datos, estas soluciones ofrecen una precisión y conocimientos incomparables, empoderando a las industrias para tomar decisiones informadas basadas en datos geográficos precisos. Involúcrate con el futuro del análisis espacial y enriquece tu comprensión de las complejidades de nuestro mundo.

Soluciones geoespaciales habilitadas por IA AI Image Recognition

Glitter AI

27.6K

Transforma acciones en guías claras y accionables con facilidad.

documentación AI Tutorial

MyScale

190.4K

Presentamos la base de datos de IA de próxima generación que integra sin esfuerzo capacidades de búsqueda vectorial con análisis SQL avanzados. Esta plataforma innovadora revoluciona la gestión de datos, empoderando a los usuarios para descubrir conocimientos profundos y mejorar sus procesos de toma de decisiones. Aprovecha el poder de la IA para llevar tu experiencia de análisis de datos a nuevas alturas.

Búsqueda vectorial AI Knowledge Base

Praktika

110.1K

Praktika es una innovadora aplicación para aprender idiomas que utiliza avatares de IA para ofrecer lecciones de inglés inmersivas y realistas. Con su enfoque atractivo, Praktika transforma la manera en que los usuarios aprenden, haciendo que la adquisición del idioma sea más placentera y efectiva.

aprendizaje de idiomas AI Character

Find AI tools in YBX