Un nuevo índice de alucinaciones de Galileo, con sede en San Francisco, que ayuda a las empresas a desarrollar, refinar y monitorear aplicaciones de modelos de lenguaje grande (LLM), revela que el modelo GPT-4 de OpenAI presenta la menor cantidad de alucinaciones en diversas tareas. Publicado hoy, el índice evaluó casi una docena de LLM, tanto de código abierto como cerrado, incluyendo la serie Llama de Meta, comparando su rendimiento para determinar cuál presenta menos alucinaciones.
Los resultados indican que, aunque todos los LLM muestran comportamientos variados en distintas tareas, los modelos de OpenAI superan consistentemente a los demás en múltiples escenarios. Este índice tiene como objetivo ayudar a las empresas a superar el desafío de las alucinaciones, una barrera significativa que impide la adopción generalizada de LLM en sectores críticos como la salud.
Seguimiento de Alucinaciones en LLM: Un Desafío Complejo
A pesar del gran interés empresarial en la IA generativa y el despliegue de LLM, a menudo surgen brechas de rendimiento. Los LLM pueden producir respuestas que no son completamente precisas desde el punto de vista factual debido a su dependencia de una base de datos vectorial que determina los términos y conceptos relacionados, sin considerar la verdad.
"Hay muchos factores que influyen en el despliegue de productos de IA generativa. Por ejemplo, ¿tu herramienta está diseñada para generar historias a partir de indicaciones simples o es un chatbot que responde a consultas de clientes basándose en información propietaria?" explicó Atindriyo Sanyal, cofundador y CTO de Galileo.
Actualmente, las empresas utilizan estándares de referencia para evaluar el rendimiento de los modelos, pero hasta ahora ha faltado una medición integral de la ocurrencia de alucinaciones. Para abordar este problema, Sanyal y su equipo evaluaron once LLM destacados, tanto de código abierto como cerrado, en tres tareas comunes: preguntas y respuestas sin generación aumentada de recuperación (RAG), preguntas y respuestas con RAG, y generación de texto largo.
"Seleccionamos siete conjuntos de datos populares reconocidos como referentes rigurosos para desafiar efectivamente las capacidades de cada modelo en relación a las tareas," destacó Sanyal. En la categoría de preguntas y respuestas sin RAG, utilizaron conjuntos de datos como TruthfulQA y TriviaQA para medir cómo se desempeñan los modelos ante consultas generales.
El equipo de Galileo redujo el tamaño de los conjuntos de datos y los anotó para establecer una verdad base para evaluar la precisión. Usaron sus métricas propias de Corrección y Adherencia al Contexto para evaluar los resultados. "Estas métricas permiten a ingenieros y científicos de datos identificar eficazmente las alucinaciones. La Corrección se centra en errores lógicos y de razonamiento y mide preguntas y respuestas sin RAG y la generación de texto largo, mientras que la Adherencia al Contexto evalúa el razonamiento dentro de los documentos proporcionados, utilizada para preguntas y respuestas con RAG," elaboró Sanyal.
Resumen del Rendimiento
En la categoría de preguntas y respuestas sin recuperación, los modelos GPT de OpenAI destacaron, con el GPT-4-0613 logrando un puntaje de corrección de 0.77. Le siguieron el GPT-3.5 Turbo-1106, GPT-3.5-Turbo-Instruct y GPT-3.5-Turbo-0613 con puntajes de 0.74, 0.70 y 0.70, respectivamente. El Llama-2-70b de Meta fue el competidor más cercano con un puntaje de 0.65, mientras que modelos como Llama-2-7b-chat y MPT-7b-instruct de Mosaic ML obtuvieron puntajes más bajos de 0.52 y 0.40.
Para las tareas de recuperación, el GPT-4-0613 nuevamente se destacó como el mejor con un puntaje de adherencia al contexto de 0.76, seguido de cerca por el GPT-3.5-Turbo-0613 y -1106 con 0.75 y 0.74, respectivamente. Impresionantemente, el Zephyr-7b de Hugging Face obtuvo un puntaje de 0.71, superando al Llama-2-70b de Meta (puntaje = 0.68). El Falcon-40b de los EAU y el MPT-7b de Mosaic ML mostraron margen de mejora con puntajes de 0.60 y 0.58.
Para las tareas de generación de texto largo, tanto el GPT-4-0613 como el Llama-2-70b obtuvieron altos puntajes de 0.83 y 0.82, respectivamente, lo que indica una mínima alucinación. El GPT-3.5-Turbo-1106 igualó la puntuación de Llama, mientras que la versión 0613 lo siguió de cerca con 0.81. El MPT-7b se quedó atrás con 0.53.
Equilibrando Rendimiento y Costos
Aunque el GPT-4 de OpenAI mantiene un rendimiento superior en todas las tareas, su precio de API puede aumentar significativamente los costos. Galileo sugiere que los equipos consideren los modelos GPT-3.5-Turbo para un rendimiento comparable a costos reducidos. Además, modelos de código abierto como el Llama-2-70b pueden ofrecer un equilibrio entre rendimiento y asequibilidad.
Es importante reconocer que este índice evolucionará, con nuevos modelos emergiendo y los existentes mejorando con el tiempo. Galileo planea actualizar el índice trimestralmente para proporcionar a los equipos clasificaciones precisas de los LLM respecto a su tendencia a alucinar en diversas tareas. "Nuestro objetivo es proporcionar a los equipos una base sólida para abordar las alucinaciones. Aunque no esperamos que el Índice de Alucinaciones sea considerado como definitivo, esperamos que sirva como un punto de partida integral para sus iniciativas de IA generativa," agregó Sanyal.