Progreso hacia la AGI: Perspectivas de DeepMind sobre nuestro estado actual

La búsqueda de la inteligencia general artificial (AGI)—sistemas de IA con capacidades a nivel humano en diversas tareas—desata un apasionado debate entre científicos. Las opiniones son variadas: algunos expertos sugieren que la AGI aún está lejana, mientras que otros pronostican su aparición en menos de una década. Notablemente, algunos creen que ya se observan "chispas de AGI" en los modelos de lenguaje grande (LLMs) actuales.

Para aclarar este discurso, un equipo de Google DeepMind, liderado por el científico principal de AGI, Shane Legg, ha presentado un nuevo marco para categorizar las capacidades y comportamientos de los sistemas de AGI y sus precursores.

Definiendo la AGI

Uno de los mayores desafíos en el desarrollo de la AGI es establecer una definición clara. Los investigadores de DeepMind evalúan nueve definiciones, entre ellas la Prueba de Turing, la Prueba del Café, evaluaciones de consciencia, métricas económicas y benchmarks relacionados con tareas. Subrayan las limitaciones de cada definición para capturar completamente la esencia de la AGI.

Por ejemplo, aunque los LLMs pueden superar la Prueba de Turing, generar texto convincente por sí solo no los califica como AGI, un hecho resaltado por las limitaciones actuales de estos modelos. Además, atribuir consciencia a las máquinas sigue siendo un objetivo ambiguo. No pasar pruebas específicas—como preparar café en una cocina desconocida—indica que no se trata de AGI, pero aprobar tareas no lo confirma.

Para fomentar una comprensión más profunda de la AGI, los investigadores proponen seis criterios para evaluar la inteligencia artificial:

1. Enfoque en las Capacidades: Las medidas de AGI deben priorizar las capacidades sobre cualidades elusivas como la comprensión humana o la consciencia.

2. Generalidad y Rendimiento: Las evaluaciones deben considerar tanto el rango de tareas que puede realizar una IA como su nivel de rendimiento.

3. Requisitos Cognitivos: La AGI debería involucrar tareas cognitivas y metacognitivas, aunque no es esencial la representación física.

4. Potencial de Tareas: La capacidad de realizar tareas a nivel de AGI es suficiente, incluso si el sistema no es desplegable. Requerir despliegue introduce desafíos no técnicos, incluidas implicaciones éticas y legales.

5. Validez Ecológica: Las métricas de AGI deben enfatizar tareas del mundo real que tengan valor para la sociedad.

6. Modelo de Continuidad: La AGI no es un único objetivo final; representa un continuo con varios niveles de inteligencia.

El Espectro de la Inteligencia

DeepMind ha creado una matriz que evalúa el "rendimiento" y la "generalidad" en cinco niveles, desde ninguna IA hasta AGI sobrehumana. El rendimiento refleja cómo las capacidades de una IA se comparan con las habilidades humanas, mientras que la generalidad mide la amplitud de tareas que una IA puede manejar eficazmente.

Esta matriz diferencia entre IA estrecha y general. Por ejemplo, los sistemas de IA estrecha sobrehumana como AlphaZero y AlphaFold destacan en tareas específicas. Los modelos de lenguaje avanzados, como ChatGPT, Bard y Llama 2, se clasifican como "Competente" (Nivel 2) en tareas como la redacción de ensayos, pero aún son "Emergentes" (Nivel 1) en áreas como matemáticas y razonamiento.

Los investigadores afirman que los modelos de lenguaje avanzados actuales serían clasificados como IA General de Nivel 1 ("AGI Emergente") hasta que demuestren un rendimiento superior en un rango más amplio de tareas. También advierten que las clasificaciones teóricas pueden no alinearse con el rendimiento en el mundo real. Por ejemplo, los sistemas de texto a imagen pueden generar imágenes de alta calidad en comparación con artistas humanos, pero aún podrían no alcanzar el estatus de "virtuoso" debido a la ocasional falta de precisión.

DeepMind aboga por un estándar de AGI que abarque una variedad de tareas cognitivas y metacognitivas, incluidas habilidades lingüísticas, capacidades de razonamiento y creatividad. Reconocen el desafío de definir cada tarea concebible por una inteligencia suficientemente general, proponiendo que la métrica de AGI sea un marco dinámico que se adapte a nuevas tareas a medida que surjan.

Autonomía y Evaluación de Riesgos

DeepMind introduce una matriz para evaluar la autonomía y los riesgos asociados en los sistemas de IA. Esta varía desde el Nivel 0, donde los humanos realizan todas las tareas, hasta el Nivel 5, que indica autonomía total, incorporando niveles donde humanos y IA comparten responsabilidades.

Los riesgos que plantean los sistemas de IA evolucionan con la creciente autonomía. En niveles bajos, los riesgos pueden incluir la descalificación de los trabajadores y disrupciones en las industrias. Los niveles más altos de autonomía podrían generar preocupaciones serias, como la manipulación dirigida de individuos a través de contenido personalizado y desalineaciones éticas en agentes totalmente autónomos.

Si bien el marco de DeepMind puede tener sus limitaciones y críticos, sirve como una guía significativa para medir el progreso hacia el desarrollo de sistemas de IA que podrían superar las capacidades humanas.

Most people like

Find AI tools in YBX