El Benchmark GAIA: La IA de Nueva Generación Enfrenta Desafíos del Mundo Real

Un nuevo referente de inteligencia artificial, GAIA, ha sido creado para evaluar si chatbots como ChatGPT pueden demostrar razonamiento y habilidades similares a las humanas en tareas cotidianas. Desarrollado por un equipo de Meta, Hugging Face, AutoGPT y GenAI, GAIA presenta preguntas del mundo real que requieren habilidades fundamentales como el razonamiento, el manejo de múltiples modalidades, la navegación web y la competencia con herramientas, según el artículo de los investigadores publicado en arXiv.

Los investigadores afirman que las preguntas de GAIA son "conceptualmente simples para los humanos, pero desafiantes para la mayoría de las AIs avanzadas". En sus pruebas, los participantes humanos obtuvieron una impresionante puntuación del 92 por ciento, mientras que GPT-4 con plugins solo alcanzó el 15 por ciento. "Esta notable disparidad en el rendimiento contrasta con la reciente tendencia de que los modelos de lenguaje grandes [LLMs] superan a los humanos en tareas especializadas como derecho o química”, afirman los autores.

GAIA se enfoca en la Competencia similar a la Humana, no en la Especialización

A diferencia de los referentes tradicionales que destacan tareas difíciles para los humanos, los investigadores abogan por centrarse en tareas que revelen la capacidad de una AI para igualar la robustez del humano promedio. El equipo de GAIA elaboró 466 preguntas del mundo real con respuestas claras. De estas, 300 se mantienen en privado para contribuir a una tabla de clasificaciones pública de GAIA, mientras que 166 preguntas y respuestas están disponibles como un conjunto de desarrollo.

"Resolver GAIA representaría un hito en la investigación de IA", dice el autor principal Grégoire Mialon de Meta AI. "Creemos que superar los desafíos que presenta GAIA es un paso clave hacia la próxima generación de sistemas de IA".

La Brecha de Rendimiento entre Humanos e IA

Actualmente, la puntuación más alta de GAIA pertenece a GPT-4 con plugins seleccionados manualmente, logrando un 30% de precisión. Los creadores del referente sugieren que una IA capaz de resolver GAIA podría clasificarse como poseedora de inteligencia general artificial (AGI) en un plazo razonable. “El artículo critica la tendencia de evaluar a las AIs con exámenes complejos de matemáticas, ciencias y derecho, señalando que las tareas que son un desafío para los humanos no son necesariamente difíciles para los sistemas modernos”, explican los autores.

GAIA enfatiza preguntas prácticas como “¿Qué ciudad albergó el Festival de la Canción de Eurovisión 2022 según el sitio web oficial?” y “¿Cuántas imágenes se listan en el último artículo de Wikipedia sobre Lego de 2022?” “Argumentamos que el desarrollo de AGI depende de la capacidad de un sistema para demostrar una robustez similar a la del humano promedio en tales preguntas cotidianas,” escribieron los investigadores.

El Potencial Impacto de GAIA en el Desarrollo de IA

La introducción de GAIA marca un cambio significativo en la investigación de IA, con efectos potencialmente amplios. Al enfatizar la competencia similar a la humana en tareas diarias en lugar de solo conocimiento especializado, GAIA amplía los límites de los referentes actuales de IA.

Si los sistemas de IA futuros pueden demostrar sentido común, adaptabilidad y razonamiento medido por GAIA, sugiere que podrían alcanzar una AGI práctica. Esto podría llevar a asistentes de IA, servicios y productos mejorados. Sin embargo, los investigadores advierten que los chatbots actuales aún enfrentan desafíos considerables para resolver GAIA, reflejando limitaciones existentes en razonamiento, uso de herramientas y manejo de diversos escenarios del mundo real.

A medida que los investigadores abordan el desafío de GAIA, sus hallazgos iluminarán el progreso hacia la creación de sistemas de IA más competentes, versátiles y confiables. Además, referentes como GAIA fomentan el pensamiento crítico sobre cómo se puede moldear la IA para priorizar valores humanos como la empatía, la creatividad y la toma de decisiones éticas. Para quienes estén interesados, la tabla de clasificación de GAIA ofrece información sobre qué LLM de próxima generación está sobresaliendo actualmente en esta evaluación.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles