Google DeepMind lanza un sistema de IA 'sobrehumano': Revolucionando la verificación de hechos, reduciendo costos y mejorando la precisión.

Un estudio reciente de DeepMind, la unidad de inteligencia artificial de Google, ha revelado que un sistema de inteligencia artificial puede superar a los verificadores de hechos humanos en evaluar la precisión de la información generada por modelos de lenguaje grandes.

El artículo, titulado “Long-form factuality in large language models” y publicado en arXiv, presenta el Evaluador de Veracidad Aumentada por Búsqueda (SAFE). Este método innovador utiliza un modelo de lenguaje extenso para descomponer el texto generado en hechos individuales y evaluar la precisión de cada afirmación mediante resultados de búsqueda en Google.

SAFE descompone respuestas extensas en hechos distintos y evalúa cada uno a través de razonamientos en múltiples pasos. Esto incluye realizar consultas en Google para verificar si la información está respaldada por fuentes relevantes.

Debate sobre el Rendimiento "Sobrehumano"

Los investigadores compararon SAFE con anotadores humanos utilizando un conjunto de datos de aproximadamente 16,000 hechos. Descubrieron que las evaluaciones de SAFE coincidían con las calificaciones humanas el 72% de las veces. En una muestra de 100 discrepancias, los juicios de SAFE fueron correctos el 76% de las veces.

Mientras el artículo afirma que "los agentes de LLM pueden lograr un rendimiento de calificación sobrehumano," algunos expertos cuestionan esta definición de "sobrehumano". Gary Marcus, un destacado investigador en inteligencia artificial, comentó en Twitter que "sobrehumano" podría referirse a ser "mejor que un trabajador de multitudes mal remunerado, en lugar de un verdadero verificador de hechos". Comparó esto con sugerir que el software de ajedrez de 1985 representaba capacidades sobrehumanas.

Marcus sostiene que para validar las afirmaciones de rendimiento sobrehumano, SAFE debería compararse con verificadores de hechos humanos expertos en lugar de trabajadores ocasionales. Los detalles sobre las calificaciones y métodos de los evaluadores humanos son esenciales para interpretar con precisión estos resultados.

Ahorros de Costos y Evaluación de Modelos

Una ventaja notable de SAFE es su costo-efectividad; los investigadores encontraron que usar el sistema de IA era aproximadamente 20 veces más barato que emplear verificadores de hechos humanos. Dada la creciente cantidad de información generada por modelos de lenguaje, contar con una solución asequible y escalable para verificar afirmaciones es crucial.

El equipo de DeepMind aplicó SAFE para evaluar la precisión fáctica de 13 modelos de lenguaje líderes de cuatro familias (Gemini, GPT, Claude y PaLM-2) utilizando un nuevo estándar llamado LongFact. Sus hallazgos sugieren que los modelos más grandes suelen cometer menos errores fácticos. Sin embargo, incluso los modelos de mejor rendimiento todavía producen un número considerable de inexactitudes, lo que subraya la necesidad de ser cautelosos al confiar en modelos de lenguaje que pueden transmitir información engañosa. Herramientas como SAFE podrían ser clave para mitigar estos riesgos.

Necesidad de Transparencia y Líneas Base Humanas

Aunque el código de SAFE y el conjunto de datos LongFact están disponibles en GitHub, permitiendo un mayor escrutinio y desarrollo, se requiere más transparencia respecto a las líneas base humanas utilizadas en el estudio. Comprender las calificaciones y procesos de los trabajadores de multitudes es vital para contextualizar el rendimiento de SAFE.

A medida que las empresas tecnológicas se esfuerzan por desarrollar modelos de lenguaje cada vez más sofisticados para diversas aplicaciones, la capacidad de verificar automáticamente sus resultados puede volverse crítica. Innovaciones como SAFE representan un avance significativo hacia el establecimiento de confianza y responsabilidad en la información generada por IA.

Sin embargo, es fundamental que el avance de estas tecnologías impactantes ocurra de manera transparente, incorporando la retroalimentación de múltiples partes interesadas más allá de cualquier organización. Una evaluación exhaustiva y transparente en comparación con verdaderos expertos—y no solo con trabajadores de multitudes—será clave para medir verdaderos progresos. Solo así podremos entender realmente la efectividad de la verificación automática de hechos en la lucha contra la desinformación.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles