El 31 de marzo, informes recientes revelan que, a pesar de los avances en la tecnología de chatbots de IA, persiste un problema común: estos sistemas a menudo proporcionan respuestas que son objetivamente incorrectas. Este fenómeno, denominado "alucinación", ocurre cuando la IA genera información que parece creíble pero es en realidad falsa.
Para abordar este desafío, investigadores de Google DeepMind y la Universidad de Stanford han desarrollado una herramienta llamada Search-Enhanced Fact Evaluator (SAFE). Esta herramienta utiliza modelos de lenguaje de gran tamaño para verificar la veracidad de las respuestas extensas generadas por los chatbots. Los hallazgos de su investigación, el código experimental y los conjuntos de datos están disponibles públicamente.
El sistema SAFE verifica la precisión y autenticidad de las respuestas generadas por la IA mediante un proceso de cuatro pasos: primero, descompone la respuesta en afirmaciones individuales que necesitan verificación; segundo, corrige estas afirmaciones cuando es necesario; tercero, compara las afirmaciones con los resultados de búsqueda de Google; y finalmente, evalúa la relevancia de cada hecho en relación con la consulta original.
Para evaluar la efectividad del sistema, los investigadores crearon un conjunto de datos llamado LongFact, que contiene aproximadamente 16,000 hechos, y probaron SAFE en 13 modelos de lenguaje grandes, incluyendo Claude, Gemini, GPT y PaLM-2. Los resultados indicaron que al analizar 100 hechos controvertidos, SAFE logró una tasa de precisión del 76% tras una revisión adicional. Además, el marco demuestra una eficiencia de costos significativa, con gastos más de 20 veces inferiores a la anotación manual. Este avance representa un paso crucial hacia la mejora de la confiabilidad de los chatbots de IA.