El Índice de Alucinaciones de Galileo revela que GPT-4 es el modelo de lenguaje (LLM) con mejor rendimiento en diversas aplicaciones.

Home Noticias de IA El Índice de Alucinaciones de Galileo revela que GPT-4 es el modelo de lenguaje (LLM) con mejor rendimiento en diversas aplicaciones.

Updated on noviembre 15 2023

Un nuevo índice de alucinaciones de Galileo, con sede en San Francisco, que ayuda a las empresas a desarrollar, refinar y monitorear aplicaciones de modelos de lenguaje grande (LLM), revela que el modelo GPT-4 de OpenAI presenta la menor cantidad de alucinaciones en diversas tareas. Publicado hoy, el índice evaluó casi una docena de LLM, tanto de código abierto como cerrado, incluyendo la serie Llama de Meta, comparando su rendimiento para determinar cuál presenta menos alucinaciones.

Los resultados indican que, aunque todos los LLM muestran comportamientos variados en distintas tareas, los modelos de OpenAI superan consistentemente a los demás en múltiples escenarios. Este índice tiene como objetivo ayudar a las empresas a superar el desafío de las alucinaciones, una barrera significativa que impide la adopción generalizada de LLM en sectores críticos como la salud.

Seguimiento de Alucinaciones en LLM: Un Desafío Complejo

A pesar del gran interés empresarial en la IA generativa y el despliegue de LLM, a menudo surgen brechas de rendimiento. Los LLM pueden producir respuestas que no son completamente precisas desde el punto de vista factual debido a su dependencia de una base de datos vectorial que determina los términos y conceptos relacionados, sin considerar la verdad.

"Hay muchos factores que influyen en el despliegue de productos de IA generativa. Por ejemplo, ¿tu herramienta está diseñada para generar historias a partir de indicaciones simples o es un chatbot que responde a consultas de clientes basándose en información propietaria?" explicó Atindriyo Sanyal, cofundador y CTO de Galileo.

Actualmente, las empresas utilizan estándares de referencia para evaluar el rendimiento de los modelos, pero hasta ahora ha faltado una medición integral de la ocurrencia de alucinaciones. Para abordar este problema, Sanyal y su equipo evaluaron once LLM destacados, tanto de código abierto como cerrado, en tres tareas comunes: preguntas y respuestas sin generación aumentada de recuperación (RAG), preguntas y respuestas con RAG, y generación de texto largo.

"Seleccionamos siete conjuntos de datos populares reconocidos como referentes rigurosos para desafiar efectivamente las capacidades de cada modelo en relación a las tareas," destacó Sanyal. En la categoría de preguntas y respuestas sin RAG, utilizaron conjuntos de datos como TruthfulQA y TriviaQA para medir cómo se desempeñan los modelos ante consultas generales.

El equipo de Galileo redujo el tamaño de los conjuntos de datos y los anotó para establecer una verdad base para evaluar la precisión. Usaron sus métricas propias de Corrección y Adherencia al Contexto para evaluar los resultados. "Estas métricas permiten a ingenieros y científicos de datos identificar eficazmente las alucinaciones. La Corrección se centra en errores lógicos y de razonamiento y mide preguntas y respuestas sin RAG y la generación de texto largo, mientras que la Adherencia al Contexto evalúa el razonamiento dentro de los documentos proporcionados, utilizada para preguntas y respuestas con RAG," elaboró Sanyal.

Resumen del Rendimiento

En la categoría de preguntas y respuestas sin recuperación, los modelos GPT de OpenAI destacaron, con el GPT-4-0613 logrando un puntaje de corrección de 0.77. Le siguieron el GPT-3.5 Turbo-1106, GPT-3.5-Turbo-Instruct y GPT-3.5-Turbo-0613 con puntajes de 0.74, 0.70 y 0.70, respectivamente. El Llama-2-70b de Meta fue el competidor más cercano con un puntaje de 0.65, mientras que modelos como Llama-2-7b-chat y MPT-7b-instruct de Mosaic ML obtuvieron puntajes más bajos de 0.52 y 0.40.

Para las tareas de recuperación, el GPT-4-0613 nuevamente se destacó como el mejor con un puntaje de adherencia al contexto de 0.76, seguido de cerca por el GPT-3.5-Turbo-0613 y -1106 con 0.75 y 0.74, respectivamente. Impresionantemente, el Zephyr-7b de Hugging Face obtuvo un puntaje de 0.71, superando al Llama-2-70b de Meta (puntaje = 0.68). El Falcon-40b de los EAU y el MPT-7b de Mosaic ML mostraron margen de mejora con puntajes de 0.60 y 0.58.

Para las tareas de generación de texto largo, tanto el GPT-4-0613 como el Llama-2-70b obtuvieron altos puntajes de 0.83 y 0.82, respectivamente, lo que indica una mínima alucinación. El GPT-3.5-Turbo-1106 igualó la puntuación de Llama, mientras que la versión 0613 lo siguió de cerca con 0.81. El MPT-7b se quedó atrás con 0.53.

Equilibrando Rendimiento y Costos

Aunque el GPT-4 de OpenAI mantiene un rendimiento superior en todas las tareas, su precio de API puede aumentar significativamente los costos. Galileo sugiere que los equipos consideren los modelos GPT-3.5-Turbo para un rendimiento comparable a costos reducidos. Además, modelos de código abierto como el Llama-2-70b pueden ofrecer un equilibrio entre rendimiento y asequibilidad.

Es importante reconocer que este índice evolucionará, con nuevos modelos emergiendo y los existentes mejorando con el tiempo. Galileo planea actualizar el índice trimestralmente para proporcionar a los equipos clasificaciones precisas de los LLM respecto a su tendencia a alucinar en diversas tareas. "Nuestro objetivo es proporcionar a los equipos una base sólida para abordar las alucinaciones. Aunque no esperamos que el Índice de Alucinaciones sea considerado como definitivo, esperamos que sirva como un punto de partida integral para sus iniciativas de IA generativa," agregó Sanyal.

Ramp, la startup de tarjetas corporativas, se integra sin problemas con Microsoft Teams y 365 Copilot para potenciar la productividad.

El Audaz Impulso de Microsoft en la IA Generativa: Anuncios Clave de Ignite 2023

Most people like

BrightHire

57.1K

Aprovecha el poder de la inteligencia artificial en entrevistas para revolucionar tu experiencia de contratación. Al integrar algoritmos avanzados y análisis de datos, este enfoque innovador simplifica la evaluación de candidatos, mejora la toma de decisiones y acelera el proceso de reclutamiento. Transforma tu estrategia de contratación hoy con conocimientos impulsados por IA que conducen a una mejor adquisición de talento y a un mejor ajuste organizacional.

Plataforma de Inteligencia para Entrevistas AI Recruiting

Durable AI Website Builder and Small Business Software

1.2M

Descubre una plataforma poderosa que ofrece herramientas impulsadas por inteligencia artificial, diseñadas específicamente para que las pequeñas empresas puedan crear y gestionar sus sitios web con facilidad y eficiencia.

Constructor de sitios web de IA AI Website Builder

Kraftful

32.4K

En el competitivo mercado actual, comprender las opiniones y preferencias de los clientes es fundamental para el desarrollo y perfeccionamiento de productos. Nuestra herramienta de análisis de IA está diseñada para transformar la retroalimentación sobre productos en conocimientos accionables, permitiendo a las empresas mejorar sus ofertas de manera eficiente. Descubre cómo aprovechar el poder de la inteligencia artificial puede proporcionar una claridad invaluable para entender las experiencias de los usuarios y llevar el éxito de tu producto a nuevas alturas.

Gestión de productos de IA AI Analytics Assistant

Napkin AI

1.7M

Eleva la narración de tu negocio transformando texto en visuales atractivos. El contenido visual mejora la comunicación, haciendo que tu mensaje sea más impactante y memorable. Descubre cómo aprovechar el poder de las imágenes para transmitir ideas complejas de manera clara y efectiva.

IA Visual Other

Find AI tools in YBX