GPT-4 de OpenAI se ha consolidado como el modelo de lenguaje grande (LLM) líder en la reducción de alucinaciones al resumir documentos, según una evaluación reciente de Vectara. La empresa lanzó un completo ranking en GitHub que evalúa modelos LLM destacados utilizando su Modelo de Evaluación de Alucinaciones. Este modelo mide la frecuencia de alucinaciones, es decir, instancias en las que la IA genera información incorrecta o fabricada, durante los resúmenes de documentos.
Tanto GPT-4 como su variante GPT-4 Turbo lograron un rendimiento extraordinario, alcanzando la tasa de precisión más alta con un 97% y una tasa mínima de alucinaciones del 3%. A continuación, se encuentra GPT-3.5 Turbo, que obtuvo una impresionante precisión del 96.5% y una tasa de alucinaciones ligeramente más alta del 3.5%.
Entre los competidores que no son de OpenAI, la versión de 70 mil millones de parámetros de Llama 2 de Meta se destacó, logrando un puntaje de precisión del 94.9% y una tasa de alucinaciones del 5.1%. En contraste, los modelos de Google tuvieron un desempeño deficiente en el ranking. Google Palm 2 registró una precisión del 87.9% junto con una tasa de alucinaciones del 12.1%, mientras que su versión refinada para chat tuvo una caída significativa, con solo un 72.8% de precisión y la tasa de alucinaciones más alta del 27.2%.
Vale la pena mencionar que Google Palm 2 Chat generó el mayor recuento promedio de palabras por resumen, alcanzando 221 palabras, mientras que GPT-4 produjo un promedio de 81 palabras por resumen.
Metodología de Evaluación
La evaluación de Vectara, diseñada para identificar alucinaciones en las salidas de LLM, utilizó conjuntos de datos de código abierto. La empresa probó cada modelo con 1,000 documentos breves, solicitando resúmenes basados únicamente en el contenido de esos documentos. Sin embargo, solo 831 de estos documentos fueron resumidos por todos los modelos, ya que los restantes fueron filtrados debido a restricciones de contenido. Para los documentos compartidos entre todos los modelos, Vectara calculó las tasas generales de precisión y alucinaciones.
Es importante destacar que, aunque el contenido evaluado estaba libre de material ilícito y 'no seguro para el trabajo', la presencia de ciertas palabras clave provocó restricciones de contenido en algunos modelos.
Abordando los Desafíos de las Alucinaciones
El problema de las alucinaciones ha sido una barrera significativa para la adopción generalizada de la IA generativa en las empresas. Shane Connelly, jefe de producto en Vectara, enfatizó en un blog la histórica dificultad para cuantificar eficazmente las alucinaciones. Los intentos anteriores a menudo han sido demasiado abstractos o han abordado temas controvertidos, limitando su aplicación práctica para las empresas.
El Modelo de Evaluación de Alucinaciones creado por Vectara es de código abierto, permitiendo a las organizaciones usarlo para evaluar la fiabilidad de sus modelos de lenguaje en marcos de Generación Aumentada por Recuperación (RAG). Este modelo está disponible a través de Hugging Face, lo que permite a los usuarios personalizarlo según sus requisitos específicos.
Como expresa Connelly, "Nuestro objetivo es dotar a las empresas de los conocimientos necesarios para implementar sistemas generativos con confianza a través de un análisis exhaustivo y cuantificado." Al proporcionar una comprensión más clara de las salidas de la IA, las empresas pueden navegar mejor las complejidades de la tecnología de IA generativa.