Google está ampliando su línea de modelos de IA para abordar desafíos cruciales en el campo. Hoy, la empresa presentó DataGemma, un conjunto de modelos de código abierto ajustados por instrucciones, diseñados para reducir las alucinaciones—situaciones en las que los modelos de lenguaje grandes (LLMs) generan respuestas inexactas—específicamente en consultas estadísticas.
Disponibles en Hugging Face para fines de investigación y académicos, estos nuevos modelos se expanden sobre la familia Gemma existente, aprovechando datos del mundo real de la plataforma Data Commons de Google. Esta plataforma pública alberga un gráfico de conocimiento abierto que comprende más de 240 mil millones de puntos de datos obtenidos de organizaciones reconocidas en diversos sectores, incluyendo economía, ciencia y salud.
Abordando las Alucinaciones Factuales
Los LLMs han revolucionado la tecnología, impulsando aplicaciones que van desde la generación de código hasta el soporte al cliente y optimizando el uso de recursos para las empresas. A pesar de sus avances, persiste el problema de las alucinaciones, especialmente relacionadas con datos numéricos y estadísticos.
Según los investigadores de Google, los factores que contribuyen a este fenómeno incluyen la naturaleza probabilística de las salidas de los LLM y la cobertura factual insuficiente en los datos de entrenamiento. Las técnicas tradicionales de vinculación han enfrentado dificultades con consultas estadísticas debido a los diversos esquemas y formatos en los datos públicos, que requieren un contexto sustancial para una interpretación precisa.
Para cerrar estas brechas, los investigadores integraron Data Commons, uno de los mayores repositorios de datos estadísticos públicos normalizados, con la familia de modelos de lenguaje Gemma, creando así DataGemma.
Enfoques Innovadores para una Mayor Precisión
DataGemma emplea dos métodos distintos para mejorar la precisión factual:
1. Generación Intercalada por Recuperación (RIG): Este enfoque integra la precisión factual al comparar la salida original del LLM con estadísticas relevantes de Data Commons. El LLM refinado genera consultas en lenguaje natural descriptivas que se convierten en consultas de datos estructurados, recuperando respuestas estadísticamente relevantes, incluyendo citas.
2. Generación Aumentada por Recuperación (RAG): Este método mejora los modelos utilizando preguntas estadísticas originales para extraer variables relevantes y formar consultas en lenguaje natural dirigidas a Data Commons. Los datos extraídos, combinados con la pregunta original, se utilizan para solicitar a un LLM de largo contexto (en este caso, Gemini 1.5 Pro) la generación de respuestas precisas.
Resultados Prometedores en Pruebas
En pruebas preliminares que involucraron 101 consultas, los modelos DataGemma ajustados con RIG mejoraron la precisión factual en un 5-17% respecto a la línea base, alcanzando aproximadamente un 58% de precisión. Aunque RAG produjo resultados ligeramente inferiores, aún superó a los modelos base.
DataGemma respondió con éxito entre el 24 y el 29% de las consultas utilizando respuestas estadísticas de Data Commons, manteniendo un 99% de precisión con valores numéricos. Sin embargo, enfrentó desafíos al extraer inferencias precisas de los números entre el 6 y el 20% de las veces.
Tanto las técnicas RIG como RAG demuestran su efectividad en mejorar la precisión de los modelos para consultas estadísticas, particulares en contextos de investigación y toma de decisiones. RIG ofrece velocidad, mientras que RAG proporciona datos más extensos, aunque depende de la disponibilidad de información y de grandes capacidades de manejo de contexto.
Google tiene como objetivo avanzar en la investigación sobre estos métodos a través del lanzamiento público de DataGemma con RIG y RAG.
La empresa declaró: "Nuestra investigación sigue en curso, y estamos comprometidos a perfeccionar estas metodologías a medida que escalemos este trabajo, asegurando pruebas rigurosas e integrando esta funcionalidad mejorada en los modelos Gemma y Gemini mediante un enfoque de acceso limitado y por fases".