Los investigadores de la Universidad de Tokio y Alternative Machine han desarrollado un sistema de robot humanoide llamado Alter3, capaz de traducir comandos en lenguaje natural directamente en acciones robóticas. Aprovechando el amplio conocimiento de los grandes modelos de lenguaje (LLMs) como GPT-4, Alter3 puede llevar a cabo tareas complejas, como tomarse selfies o simular ser un fantasma.
Esta innovación representa un avance significativo en la integración de modelos fundamentales con sistemas robóticos. Aunque aún no hay una solución comercial escalable disponible, los recientes avances han revitalizado la investigación en robótica y prometen grandes posibilidades.
Transformando el Lenguaje en Acciones Robóticas
Alter3 utiliza GPT-4 como su modelo central, procesando instrucciones en lenguaje natural que describen acciones o situaciones a las que el robot debe responder. El modelo emplea un "marco agente" para diseñar una serie de pasos necesarios para alcanzar el objetivo especificado, actuando inicialmente como un planificador que determina la secuencia adecuada para la tarea deseada.
Alter3 utiliza varios formatos de indicaciones de GPT-4 para analizar instrucciones y traducirlas en comandos robóticos. Dado que GPT-4 no tiene un entrenamiento específico sobre los comandos de programación de Alter3, los investigadores aprovechan su aprendizaje contextual para adaptar su salida a la API del robot. Esto implica proporcionar una lista de comandos y ejemplos ilustrativos de su uso, permitiendo al modelo traducir cada paso de acción en comandos API ejecutables para el robot.
“Anteriormente, controlábamos manualmente los 43 ejes en un orden específico para replicar poses humanas o simular acciones como servir té o jugar al ajedrez”, comentan los investigadores. “Con los LLMs, nos hemos liberado de este proceso laborioso”.
Incorporando Comentarios Humanos
Dado que el lenguaje puede ser impreciso para detallar movimientos físicos, las secuencias de acción generadas por el modelo pueden no siempre reflejar el comportamiento robótico deseado. Para abordar esto, los investigadores han integrado un mecanismo de retroalimentación que permite a los usuarios refinar comandos, como “Levanta tu brazo un poco más”. Estas correcciones son procesadas por otro agente de GPT-4, que ajusta el código y devuelve la secuencia de acciones revisada para su ejecución por el robot. Los planes y códigos mejorados se almacenan para su futura aplicación.
La incorporación de retroalimentación humana y memoria mejora significativamente el rendimiento de Alter3. Los investigadores han evaluado al robot en diversas tareas, desde acciones simples como tomarse selfies y beber té, hasta imitaciones más complejas como actuar como un fantasma o una serpiente. El modelo también ha demostrado su capacidad para gestionar escenarios que requieren una planificación intrincada.
“El entrenamiento del LLM abarca diversas representaciones lingüísticas de los movimientos. GPT-4 traduce con precisión estas representaciones en comandos para Alter3”, explica el equipo.
Con el vasto entendimiento de comportamiento humano de GPT-4, este puede generar planes de comportamiento realistas para robots humanoides. En experimentos, el equipo también logró dotar a Alter3 de expresiones emocionales como vergüenza y alegría.
“Incluso a partir de textos que no mencionan explícitamente señales emocionales, el LLM puede deducir las emociones apropiadas y reflejarlas en las respuestas físicas de Alter3”, subrayan los investigadores.
Avances en Modelos de Robótica
La adopción de modelos fundamentales en la investigación robótica está ganando rápidamente impulso. Por ejemplo, Figure, valorada en 2.6 mil millones de dólares, utiliza modelos de OpenAI para interpretar comandos humanos y ejecutar acciones correspondientes en el mundo real. Con el auge de las capacidades multimodales en los modelos fundamentales, los sistemas robóticos están en posición de mejorar su razonamiento ambiental y toma de decisiones.
Alter3 ejemplifica una tendencia donde los modelos de base se utilizan como módulos de razonamiento y planificación en los sistemas de control robótico. Es importante destacar que no depende de una versión ajustada de GPT-4, lo que permite que su código sea aplicable a otros robots humanoides.
Proyectos como RT-2-X y OpenVLA utilizan modelos fundamentales especializados diseñados para generar comandos robóticos directamente. Aunque estos modelos a menudo producen resultados más estables y generalizan en diversas tareas y entornos, requieren una mayor experiencia técnica y costos de desarrollo.
No obstante, un aspecto crítico a menudo pasado por alto en estas iniciativas es el desafío fundamental de permitir que los robots realicen tareas básicas, incluido agarrar objetos, mantener el equilibrio y navegar por entornos. "Una cantidad significativa de trabajo ocurre a un nivel inferior a lo que estos modelos abordan", comentó el científico de IA y robótica Chris Paxton en una reciente entrevista. "Ese es uno de los trabajos desafiantes, en gran parte debido a la falta de datos existentes".