Los humanos utilizan frecuentemente comportamientos expresivos para transmitir metas e intenciones. Por ejemplo, asentimos para saludar a un compañero de trabajo, movemos la cabeza para expresar desaprobación o decimos "perdón" para abrirnos paso en una multitud. Para facilitar interacciones más fluidas con los humanos, los robots móviles también deben exhibir comportamientos expresivos similares. Sin embargo, este desafío sigue siendo significativo en la robótica, y las soluciones existentes a menudo carecen de flexibilidad y adaptabilidad.
En un estudio innovador, investigadores de la Universidad de Toronto, Google DeepMind y Hoku Labs presentan GenEM, un enfoque novedoso que aprovecha el amplio contexto social incorporado en los modelos de lenguaje grandes (LLMs) para permitir a los robots realizar comportamientos expresivos. Al utilizar diversos métodos de indicación, GenEM permite a los robots interpretar su entorno y replicar expresiones humanas de manera efectiva.
Comportamientos Expresivos en Robótica
Tradicionalmente, la creación de comportamientos expresivos en robots dependía de sistemas basados en reglas o plantillas, que requerían una considerable entrada manual para cada robot y entorno. Esta rigidez implica que cualquier cambio o adaptación necesita una reprogramación extensa. Las técnicas más modernas han optado por enfoques basados en datos que ofrecen mayor flexibilidad, aunque a menudo requieren conjuntos de datos especializados adaptados a las interacciones de cada robot.
GenEM transforma este enfoque al aprovechar el rico conocimiento dentro de los LLMs para generar dinámicamente comportamientos expresivos, eliminando la necesidad de entrenamiento tradicional de modelos o complicadas reglas. Por ejemplo, los LLMs pueden reconocer la importancia del contacto visual o los asentimientos en diferentes contextos sociales.
"Nuestro principal hallazgo es utilizar el rico contexto social de los LLMs para crear comportamientos expresivos adaptables y combinables,” explican los investigadores.
Movimiento Expresivo Generativo (GenEM)
GenEM emplea una secuencia de agentes LLM que generan de forma autónoma comportamientos expresivos en robots a partir de comandos en lenguaje natural. Cada agente contribuye razonando sobre contextos sociales y traduciendo estos comportamientos en llamadas a la API del robot.
“GenEM puede producir comportamientos multimodales utilizando las capacidades del robot—como el habla y el movimiento corporal—para expresar claramente la intención,” señalan los investigadores. "Una de las características destacadas de GenEM es su capacidad para adaptarse a retroalimentación humana en tiempo real, lo que permite mejoras iterativas y la generación de nuevos comportamientos expresivos."
El flujo de trabajo de GenEM comienza con una instrucción en lenguaje natural, especificando una acción expresiva como “Asienta la cabeza” o estableciendo un escenario social, como “Una persona que pasa te saluda.” Inicialmente, un LLM utiliza un razonamiento en cadena para esbozar la posible respuesta de un humano. Otro agente LLM traduce esto en una guía paso a paso que refleja las funciones disponibles del robot, orientando acciones como inclinar la cabeza o activar patrones de luz específicos.
A continuación, las instrucciones procedimentales se convierten en código ejecutable, basándose en los comandos de la API del robot. Se puede incorporar retroalimentación humana opcional para refinar el comportamiento aún más, todo sin entrenar los LLMs—solo se requieren ajustes de ingeniería de indicaciones según las especificaciones del robot.
Pruebas de GenEM
Los investigadores evaluaron los comportamientos generados por dos variantes de GenEM—una que incorpora la retroalimentación del usuario y otra que no—frente a comportamientos guionizados elaborados por un animador profesional. Utilizando el GPT-4 de OpenAI para el razonamiento contextual y la generación de comportamientos expresivos, encuestaron las respuestas de los usuarios sobre los resultados. Los resultados indicaron que los usuarios generalmente encontraban los comportamientos generados por GenEM tan comprensibles como los de un animador profesional. Además, el método modular y de múltiples pasos de GenEM superó ampliamente el enfoque anterior de un solo LLM.
Es crucial que el diseño basado en indicaciones de GenEM sea adaptable a cualquier tipo de robot sin necesidad de conjuntos de datos especializados para su entrenamiento. Emplea efectivamente el razonamiento de LLM para crear comportamientos expresivos complejos a partir de acciones robóticas simples.
“Nuestro marco genera rápidamente comportamientos expresivos mediante el aprendizaje en contexto y la indicación de pocos disparadores, reduciendo significativamente la necesidad de conjuntos de datos curados o elaboración de reglas complejas como en métodos anteriores,” concluyen los investigadores.
Aunque aún se encuentra en sus primeras etapas, GenEM ha sido probado principalmente en escenarios interactivos sencillos y espacios de acción limitados. Hay potencial para explorar en robots con acciones primitivas más diversas, prometiendo los modelos de lenguaje grandes mejorar aún más estas capacidades.
“Creemos que nuestro enfoque ofrece un marco flexible para generar movimiento expresivo adaptable y combinable, aprovechando el poder de los modelos de lenguaje grandes,” concluyen los investigadores.