En los últimos meses, hemos visto un aumento en los proyectos que utilizan modelos de lenguaje grandes (LLMs) para desarrollar aplicaciones robóticas innovadoras que antes se consideraban imposibles. El poder de los LLMs y modelos multimodales está permitiendo a los investigadores crear robots capaces de procesar comandos en lenguaje natural y ejecutar tareas complejas que requieren razonamiento avanzado.
Este creciente interés en la intersección entre LLMs y robótica ha revitalizado el panorama de startups robóticas, con numerosas empresas asegurando financiamiento sustancial y presentando demostraciones impresionantes. Con los notables avances en LLMs que se traducen en aplicaciones del mundo real, podríamos estar al borde de una nueva era en la robótica.
Modelos de Lenguaje para Percepción y Razonamiento
Tradicionalmente, la construcción de sistemas robóticos requería esfuerzos de ingeniería complejos para desarrollar módulos de planificación y razonamiento, lo que dificultaba la creación de interfaces amigables que se adaptaran a las diversas formas en que las personas emiten comandos. La aparición de LLMs y modelos de visión-lenguaje (VLMs) ha empoderado a los ingenieros robóticos para mejorar sistemas existentes de manera innovadora. Un proyecto clave en este ámbito fue SayCan, desarrollado por Google Research, que utilizó el conocimiento semántico incrustado en un LLM para ayudar a los robots a razonar sobre tareas y determinar secuencias de acción apropiadas.
“SayCan fue uno de los artículos más influyentes en robótica,” comentó Chris Paxton, científico investigador en IA y robótica. “Su diseño modular permite la integración de diferentes componentes para crear sistemas capaces de demostraciones impactantes.”
Tras SayCan, los investigadores han comenzado a explorar la aplicación de modelos de lenguaje y visión de diversas maneras dentro de la robótica, logrando avances significativos. Algunos proyectos utilizan LLMs y VLMs de propósito general, mientras que otros se centran en adaptar modelos existentes para tareas robóticas específicas.
“Utilizar grandes modelos de lenguaje y modelos de visión ha hecho que aspectos como la percepción y el razonamiento sean significativamente más accesibles,” observó Paxton. “Esto ha hecho que muchas tareas robóticas sean más alcanzables que nunca.”
Combinando Capacidades Existentes
Una limitación importante de los sistemas robóticos tradicionales radica en sus mecanismos de control. Los equipos pueden entrenar robots para habilidades individuales, como abrir puertas o manipular objetos, pero combinar estas habilidades para realizar tareas complejas puede ser complicado, lo que resulta en sistemas rígidos que requieren instrucciones explícitas. LLMs y VLMs permiten a los robots interpretar instrucciones vagamente definidas y mapearlas a secuencias de tareas específicas alineadas con sus capacidades. Curiosamente, muchos modelos avanzados pueden lograr esto sin un extenso reentrenamiento.
“Con los grandes modelos de lenguaje, puedo conectar sin problemas diferentes habilidades y razonar sobre su aplicación,” explicó Paxton. “Los nuevos modelos de lenguaje visual como GPT-4V ilustran cómo estos sistemas pueden colaborar de manera efectiva en una variedad de aplicaciones.”
Por ejemplo, GenEM, una técnica creada por la Universidad de Toronto, Google DeepMind y Hoku Labs, utiliza el contexto social integral capturado en los LLMs para generar comportamientos expresivos en los robots. Aprovechando GPT-4, GenEM permite a los robots entender contextos —como asentir para reconocer la presencia de alguien— y ejecutar acciones relevantes, informadas por sus amplios datos de entrenamiento y capacidades de aprendizaje en contexto.
Otro ejemplo es OK-Robot, desarrollado por Meta y la Universidad de Nueva York, que combina VLMs con módulos de planificación de movimiento y manipulación de objetos para realizar tareas de recoger y soltar en entornos desconocidos.
Varias startups de robótica están prosperando en medio de estos avances. Figure, una empresa de robótica con sede en California, recaudó recientemente $675 millones para desarrollar robots humanoides que utilizan modelos de visión y lenguaje. Sus robots aprovechan los modelos de OpenAI para procesar instrucciones y planificar acciones estratégicamente.
Sin embargo, aunque los LLMs y VLMs abordan desafíos significativos, los equipos de robótica aún deben desarrollar sistemas para habilidades fundamentales, como agarrar objetos, navegar obstáculos y maniobrar en diversos entornos.
“Hay un trabajo sustancial ocurriendo a nivel fundamental que estos modelos aún no manejan,” dijo Paxton. “Esta complejidad subraya la necesidad de datos, que muchas empresas están empezando a generar.”
Modelos de Fundación Especializados
Otro enfoque prometedor implica la creación de modelos de fundación especializados para robótica que se basen en el vasto conocimiento embebido en modelos preentrenados, personalizando sus arquitecturas para tareas robóticas. Un gran esfuerzo en este ámbito es RT-2 de Google, un modelo de acción de visión-lenguaje (VLA) que procesa datos de percepción e instrucciones lingüísticas para generar comandos ejecutables para robots.
Recientemente, Google DeepMind presentó RT-X-2, una versión mejorada de RT-2 que se adapta a diversas morfologías robóticas mientras realiza tareas no incluidas en su conjunto de datos de entrenamiento. Además, RT-Sketch, una colaboración entre DeepMind y la Universidad de Stanford, traduce bocetos en planes de acción ejecutables para robots.
“Estos modelos representan un nuevo enfoque, funcionando como una política expansiva capaz de manejar múltiples tareas,” comentó Paxton. “Esta es una dirección emocionante impulsada por el aprendizaje de extremo a extremo, donde un robot puede derivar sus acciones de una transmisión de cámara.”
Los modelos de fundación para robótica están entrando cada vez más en el ámbito comercial. Covariant presentó recientemente RFM-1, un modelo transformer de 8 mil millones de parámetros entrenado con entradas diversas, incluyendo texto, imágenes, videos y acciones robóticas, orientado a crear un modelo de fundación versátil para diversas aplicaciones robóticas.
Mientras tanto, el Proyecto GR00T, presentado en Nvidia GTC, busca permitir que los robots humanoides procesen entradas como texto, voz y videos, traduciéndolos en acciones específicas.
El potencial completo de los modelos de lenguaje sigue siendo en gran medida inexplorado y continuará impulsando la investigación en robótica hacia adelante. A medida que los LLMs evolucionen, podemos anticipar innovaciones revolucionarias en el campo de la robótica.