El innovador modelo de control robotizado de DeepMind y Stanford ejecuta tareas a partir de instrucciones en bocetos.

Avances recientes en modelos de lenguaje y visión han mejorado significativamente la capacidad de los sistemas robóticos para seguir instrucciones derivadas de texto o imágenes. Sin embargo, estos métodos presentan limitaciones. Un nuevo estudio de investigadores de Stanford University y Google DeepMind sugiere utilizar bocetos como instrucciones para robots. Los bocetos ofrecen información espacial rica que ayuda a los robots a realizar tareas sin la confusión que puede surgir del desorden de imágenes realistas o la ambigüedad del lenguaje natural.

Presentamos RT-Sketch

Los investigadores desarrollaron RT-Sketch, un modelo que utiliza bocetos para controlar robots. Este modelo se desempeña comparablemente a los agentes condicionados por lenguaje e imagen en condiciones estándar y los supera donde estos caen cortos.

¿Por qué elegir bocetos?

Aunque el lenguaje ofrece un medio directo para transmitir metas, puede ser inconveniente para tareas que requieren manipulaciones precisas, como organizar objetos. Las imágenes representan metas deseadas con detalle, pero obtener una imagen del objetivo suele ser impráctico. Además, las imágenes pregrabadas pueden tener detalles excesivos, lo que lleva a un sobreajuste y a una mala generalización en nuevos entornos.

"Inicialmente, pensamos en permitir que los robots interpretaran manuales de ensamblaje, como los esquemas de IKEA, y realizaran las manipulaciones necesarias," comentó Priya Sundaresan, estudiante de doctorado en Stanford y autora principal del estudio. "El lenguaje a menudo es demasiado ambiguo para tareas espaciales, y puede que no haya imágenes preexistentes disponibles."

El equipo optó por los bocetos porque son mínimos, fáciles de producir e informativos. Los bocetos comunican arreglos espaciales de manera efectiva sin necesidad de detalles a nivel de píxel, permitiendo a los modelos identificar objetos relevantes y mejorar sus capacidades de generalización.

"Vemos los bocetos como un paso crucial hacia formas más convenientes y expresivas para que los humanos instruyan a los robots," explicó Sundaresan.

El modelo RT-Sketch

RT-Sketch se basa en Robotics Transformer 1 (RT-1), un modelo que traduce instrucciones de lenguaje en comandos robóticos. Los investigadores adaptaron esta arquitectura para utilizar objetivos visuales, incluyendo bocetos e imágenes.

Para entrenar RT-Sketch, usaron el conjunto de datos RT-1, que cuenta con 80,000 grabaciones de tareas teleoperadas en VR, como manipulación de objetos y operaciones de armarios. Inicialmente, crearon bocetos a partir de estas demostraciones seleccionando 500 ejemplos y produciendo representaciones dibujadas a mano de los fotogramas finales del video. Estos bocetos, junto con los fotogramas de video correspondientes, se utilizaron para entrenar una red generativa adversarial (GAN) que convierte imágenes en bocetos.

Entrenamiento y funcionalidad

La GAN generó bocetos para entrenar el modelo RT-Sketch, que se amplió con variaciones para imitar diferentes estilos de dibujo a mano. Durante su operación, el modelo acepta una imagen de la escena y un boceto aproximado del arreglo de objetos deseado, generando una secuencia de comandos para que el robot logre el objetivo especificado.

"RT-Sketch es beneficioso para tareas espaciales donde las instrucciones verbales detalladas serían complicadas o cuando no hay una imagen disponible," indicó Sundaresan.

Por ejemplo, al poner la mesa, el lenguaje como "coloca los utensilios junto al plato" puede generar ambigüedad. Esto podría resultar en múltiples interacciones para aclarar la comprensión del modelo. En cambio, un simple boceto puede indicar claramente el arreglo deseado.

"RT-Sketch también podría ayudar en tareas como desembalar artículos o arreglar muebles en un nuevo espacio, así como en tareas complejas y de múltiples pasos, como doblar ropa," agregó Sundaresan.

Evaluación de RT-Sketch

Los investigadores probaron RT-Sketch en varios escenarios, evaluando seis habilidades de manipulación, como mover objetos, golpear latas y abrir cajones. El modelo se desempeñó de manera comparable a los modelos existentes condicionados por imagen y lenguaje para tareas de manipulación básicas y superó a los modelos basados en lenguaje en escenarios donde las metas eran difíciles de articular.

"Esto indica que los bocetos logran un equilibrio efectivo; son lo suficientemente concisos como para evitar confusiones por distracciones visuales, mientras mantienen el contexto semántico y espacial necesario," destacó Sundaresan.

Direcciones futuras

A futuro, los investigadores planean explorar aplicaciones más amplias para los bocetos, integrándolos potencialmente con otras modalidades como lenguaje, imágenes y gestos humanos. DeepMind tiene varios modelos robóticos utilizando enfoques multimodales, y los hallazgos de RT-Sketch podrían potenciar estos sistemas. También están emocionados por el diverso potencial de los bocetos más allá de la representación visual.

"Los bocetos pueden transmitir movimiento con flechas, representar subobjetivos con bocetos parciales e indicar restricciones con garabatos, proporcionando información valiosa para tareas de manipulación que aún no hemos investigado," concluyó Sundaresan.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles