Cómo los Agentes de Fundación Pueden Transformar la Toma de Decisiones de IA en Aplicaciones del Mundo Real

Los modelos fundamentales han transformado la visión por computadora y el procesamiento del lenguaje natural, y ahora los investigadores proponen aplicar estos principios para desarrollar agentes fundamentales. Estos sistemas de IA están diseñados para tareas de toma de decisiones abiertas en entornos físicos.

En un reciente documento de posición, científicos de la Academia China de Ciencias definen los agentes fundamentales como “agentes de capacidades generales en mundos físicos y virtuales.” Sugieren que estos agentes podrían provocar un cambio de paradigma en la toma de decisiones, similar a cómo los modelos de lenguaje grandes (LLMs) han revolucionado las tareas lingüísticas y centradas en el conocimiento.

Los agentes fundamentales están preparados para simplificar la creación de sistemas de IA versátiles que pueden impactar significativamente en campos que actualmente dependen de soluciones de IA rígidas y específicas para tareas.

Los Desafíos de la Toma de Decisiones en IA

Los enfoques tradicionales de toma de decisiones en IA presentan limitaciones notables. Los sistemas expertos dependen del conocimiento humano formal y de reglas creadas manualmente. Los sistemas de aprendizaje por refuerzo (RL) requieren un entrenamiento extenso desde cero para cada nueva tarea, lo que limita sus capacidades de generalización. El aprendizaje por imitación (IL) necesita un esfuerzo humano considerable para preparar ejemplos de entrenamiento.

En contraste, los LLMs y modelos de lenguaje visual (VLMs) pueden adaptarse rápidamente a diferentes tareas con un ajuste mínimo. Los investigadores creen que, con las modificaciones necesarias, estos métodos se pueden adaptar para desarrollar agentes fundamentales capaces de abordar tareas de toma de decisiones abiertas en reinos físicos y virtuales.

Características Clave de los Agentes Fundamentales

Los investigadores destacan tres características esenciales de los agentes fundamentales:

1. Representación Unificada: Una representación combinada de los estados del entorno, las acciones del agente y las señales de retroalimentación.

2. Interfaz de Políticas Unificada: Aplicable a una amplia gama de tareas y dominios, incluyendo robótica, juegos, salud, y más.

3. Proceso de Toma de Decisiones Razonado: Decisiones basadas en una comprensión del conocimiento del mundo, factores ambientales e interacciones con otros agentes.

Según los investigadores, “Estas características dotan a los agentes fundamentales de percepción multimodal, adaptabilidad a través de tareas y dominios, y la capacidad de generalizar con pocos o ningún ejemplo.”

Una Hoja de Ruta para los Agentes Fundamentales

La hoja de ruta propuesta para el desarrollo de agentes fundamentales incluye tres componentes críticos:

1. Recolección de Datos: Es necesario recolectar datos interactivos a gran escala de entornos tanto de internet como del mundo real. En escenarios donde la adquisición de datos es difícil, se pueden emplear simuladores y modelos generativos como Sora.

2. Pre-entrenamiento con Datos No Etiquetados: Los agentes fundamentales deben ser pre-entrenados utilizando datos no etiquetados para desarrollar conocimientos útiles en toma de decisiones. Esto prepara a los modelos para el ajuste fino en conjuntos de datos más pequeños y específicos, permitiendo una adaptación más rápida a nuevas tareas.

3. Alineación con LLMs: Los agentes fundamentales deben integrarse con modelos de lenguaje grandes para incorporar conocimiento del mundo y valores humanos en sus procesos de toma de decisiones.

Desafíos y Oportunidades para los Agentes Fundamentales

El desarrollo de agentes fundamentales presenta desafíos únicos no encontrados en modelos de lenguaje y visión. Los detalles del mundo físico involucran información de bajo nivel en lugar de abstracciones de alto nivel, complicando la creación de representaciones unificadas para las variables de toma de decisiones.

Además, las variaciones sustanciales entre escenarios de toma de decisiones dificultan el desarrollo de una interfaz de políticas cohesiva. Si bien un modelo fundamental unificado podría abarcar todas las modalidades y entornos, esto puede introducir complejidad, afectando potencialmente la interpretabilidad.

Los agentes fundamentales deben participar activamente en procesos de toma de decisiones dinámicas, en contraste con los roles centrados en contenido de los modelos de lenguaje y visión. Los investigadores proponen diversas vías para cerrar la brecha entre los modelos fundamentales existentes y los agentes capaces de navegar tareas y entornos en evolución.

Se están llevando a cabo avances significativos en robótica, donde los sistemas de control y los modelos fundamentales se combinan para crear sistemas adaptables que pueden generalizar a través de tareas no encontradas. Estos sistemas utilizan el extenso conocimiento de sentido común de los LLMs y VLMs para tomar decisiones informadas en situaciones desconocidas.

Otra área crucial de exploración es la conducción autónoma, donde los investigadores investigan cómo los modelos de lenguaje grandes pueden mejorar los sistemas de conducción al incorporar conocimiento de sentido común y capacidades cognitivas humanas. Otros campos, como la salud y la investigación científica, también pueden beneficiarse de la colaboración de los agentes fundamentales con expertos humanos.

“Los agentes fundamentales tienen el potencial de transformar los procesos de toma de decisiones, de manera similar a cómo los modelos fundamentales han impactado en el lenguaje y la visión”, afirman los investigadores. “Sus avanzadas capacidades de percepción, adaptabilidad y razonamiento no solo abordan las limitaciones del RL convencional, sino que también desbloquean todo el potencial de los agentes fundamentales en aplicaciones del mundo real.”

Most people like

Find AI tools in YBX