GenEM de DeepMind aprovecha los LLM para crear comportamientos expresivos en robots.

Home Noticias de IA GenEM de DeepMind aprovecha los LLM para crear comportamientos expresivos en robots.

Los humanos utilizan frecuentemente comportamientos expresivos para transmitir metas e intenciones. Por ejemplo, asentimos para saludar a un compañero de trabajo, movemos la cabeza para expresar desaprobación o decimos "perdón" para abrirnos paso en una multitud. Para facilitar interacciones más fluidas con los humanos, los robots móviles también deben exhibir comportamientos expresivos similares. Sin embargo, este desafío sigue siendo significativo en la robótica, y las soluciones existentes a menudo carecen de flexibilidad y adaptabilidad.

En un estudio innovador, investigadores de la Universidad de Toronto, Google DeepMind y Hoku Labs presentan GenEM, un enfoque novedoso que aprovecha el amplio contexto social incorporado en los modelos de lenguaje grandes (LLMs) para permitir a los robots realizar comportamientos expresivos. Al utilizar diversos métodos de indicación, GenEM permite a los robots interpretar su entorno y replicar expresiones humanas de manera efectiva.

Comportamientos Expresivos en Robótica

Tradicionalmente, la creación de comportamientos expresivos en robots dependía de sistemas basados en reglas o plantillas, que requerían una considerable entrada manual para cada robot y entorno. Esta rigidez implica que cualquier cambio o adaptación necesita una reprogramación extensa. Las técnicas más modernas han optado por enfoques basados en datos que ofrecen mayor flexibilidad, aunque a menudo requieren conjuntos de datos especializados adaptados a las interacciones de cada robot.

GenEM transforma este enfoque al aprovechar el rico conocimiento dentro de los LLMs para generar dinámicamente comportamientos expresivos, eliminando la necesidad de entrenamiento tradicional de modelos o complicadas reglas. Por ejemplo, los LLMs pueden reconocer la importancia del contacto visual o los asentimientos en diferentes contextos sociales.

"Nuestro principal hallazgo es utilizar el rico contexto social de los LLMs para crear comportamientos expresivos adaptables y combinables,” explican los investigadores.

Movimiento Expresivo Generativo (GenEM)

GenEM emplea una secuencia de agentes LLM que generan de forma autónoma comportamientos expresivos en robots a partir de comandos en lenguaje natural. Cada agente contribuye razonando sobre contextos sociales y traduciendo estos comportamientos en llamadas a la API del robot.

“GenEM puede producir comportamientos multimodales utilizando las capacidades del robot—como el habla y el movimiento corporal—para expresar claramente la intención,” señalan los investigadores. "Una de las características destacadas de GenEM es su capacidad para adaptarse a retroalimentación humana en tiempo real, lo que permite mejoras iterativas y la generación de nuevos comportamientos expresivos."

El flujo de trabajo de GenEM comienza con una instrucción en lenguaje natural, especificando una acción expresiva como “Asienta la cabeza” o estableciendo un escenario social, como “Una persona que pasa te saluda.” Inicialmente, un LLM utiliza un razonamiento en cadena para esbozar la posible respuesta de un humano. Otro agente LLM traduce esto en una guía paso a paso que refleja las funciones disponibles del robot, orientando acciones como inclinar la cabeza o activar patrones de luz específicos.

A continuación, las instrucciones procedimentales se convierten en código ejecutable, basándose en los comandos de la API del robot. Se puede incorporar retroalimentación humana opcional para refinar el comportamiento aún más, todo sin entrenar los LLMs—solo se requieren ajustes de ingeniería de indicaciones según las especificaciones del robot.

Pruebas de GenEM

Los investigadores evaluaron los comportamientos generados por dos variantes de GenEM—una que incorpora la retroalimentación del usuario y otra que no—frente a comportamientos guionizados elaborados por un animador profesional. Utilizando el GPT-4 de OpenAI para el razonamiento contextual y la generación de comportamientos expresivos, encuestaron las respuestas de los usuarios sobre los resultados. Los resultados indicaron que los usuarios generalmente encontraban los comportamientos generados por GenEM tan comprensibles como los de un animador profesional. Además, el método modular y de múltiples pasos de GenEM superó ampliamente el enfoque anterior de un solo LLM.

Es crucial que el diseño basado en indicaciones de GenEM sea adaptable a cualquier tipo de robot sin necesidad de conjuntos de datos especializados para su entrenamiento. Emplea efectivamente el razonamiento de LLM para crear comportamientos expresivos complejos a partir de acciones robóticas simples.

“Nuestro marco genera rápidamente comportamientos expresivos mediante el aprendizaje en contexto y la indicación de pocos disparadores, reduciendo significativamente la necesidad de conjuntos de datos curados o elaboración de reglas complejas como en métodos anteriores,” concluyen los investigadores.

Aunque aún se encuentra en sus primeras etapas, GenEM ha sido probado principalmente en escenarios interactivos sencillos y espacios de acción limitados. Hay potencial para explorar en robots con acciones primitivas más diversas, prometiendo los modelos de lenguaje grandes mejorar aún más estas capacidades.

“Creemos que nuestro enfoque ofrece un marco flexible para generar movimiento expresivo adaptable y combinable, aprovechando el poder de los modelos de lenguaje grandes,” concluyen los investigadores.

AMD Presenta la Arquitectura Embedded+ que Revoluciona el Hardware de IA en el Borde

La visión de Menlo Ventures: Moldeando el futuro de la seguridad en inteligencia artificial.

Most people like

Sivi AI

61.8K

Sivi es una herramienta de inteligencia artificial avanzada que transforma rápidamente texto en impresionantes diseños gráficos, facilitando más que nunca dar vida a tus visiones creativas.

herramienta de diseño de IA AI Ad Generator

Luma AI video Generator Free Online

485.3K

En el paisaje digital actual, captar la atención es más crucial que nunca. Un generador de video por IA para texto y fotos te permite convertir fácilmente contenido escrito e imágenes en videos cautivadores. Esta herramienta innovadora simplifica el proceso creativo, permitiéndote involucrar a tu audiencia con narrativas visuales impactantes. Ya seas creador de contenido, comercializador o propietario de un negocio, aprovechar un generador de video por IA puede elevar tu narración y mejorar tu presencia en línea. Descubre cómo transformar tu texto y fotos en videos atractivos que resuenen con los espectadores y aumenten el compromiso.

Generador de video con IA Text to Video

ScrumDesk

12K

Herramienta de gestión de proyectos ágil optimizada para equipos Scrum de alto rendimiento.

Ágil Other

Cognify Insights

6.4K

Desbloquea todo el potencial de tu investigación con nuestra poderosa extensión para navegadores, diseñada específicamente para análisis profundo. Ya seas estudiante, profesional o un aprendiz curioso, esta herramienta mejora tu experiencia de navegación al integrar sin esfuerzo valiosos conocimientos y recursos. Descubre cómo esta extensión puede elevar tu proceso de investigación, facilitando la recopilación, organización y análisis de información crucial de manera eficiente. ¡Únete a miles en la transformación de la forma en que realizas investigaciones hoy!

Asistente de investigación Research Tool

Find AI tools in YBX