El innovador modelo de control robotizado de DeepMind y Stanford ejecuta tareas a partir de instrucciones en bocetos.

Home Noticias de IA El innovador modelo de control robotizado de DeepMind y Stanford ejecuta tareas a partir de instrucciones en bocetos.

Avances recientes en modelos de lenguaje y visión han mejorado significativamente la capacidad de los sistemas robóticos para seguir instrucciones derivadas de texto o imágenes. Sin embargo, estos métodos presentan limitaciones. Un nuevo estudio de investigadores de Stanford University y Google DeepMind sugiere utilizar bocetos como instrucciones para robots. Los bocetos ofrecen información espacial rica que ayuda a los robots a realizar tareas sin la confusión que puede surgir del desorden de imágenes realistas o la ambigüedad del lenguaje natural.

Presentamos RT-Sketch

Los investigadores desarrollaron RT-Sketch, un modelo que utiliza bocetos para controlar robots. Este modelo se desempeña comparablemente a los agentes condicionados por lenguaje e imagen en condiciones estándar y los supera donde estos caen cortos.

¿Por qué elegir bocetos?

Aunque el lenguaje ofrece un medio directo para transmitir metas, puede ser inconveniente para tareas que requieren manipulaciones precisas, como organizar objetos. Las imágenes representan metas deseadas con detalle, pero obtener una imagen del objetivo suele ser impráctico. Además, las imágenes pregrabadas pueden tener detalles excesivos, lo que lleva a un sobreajuste y a una mala generalización en nuevos entornos.

"Inicialmente, pensamos en permitir que los robots interpretaran manuales de ensamblaje, como los esquemas de IKEA, y realizaran las manipulaciones necesarias," comentó Priya Sundaresan, estudiante de doctorado en Stanford y autora principal del estudio. "El lenguaje a menudo es demasiado ambiguo para tareas espaciales, y puede que no haya imágenes preexistentes disponibles."

El equipo optó por los bocetos porque son mínimos, fáciles de producir e informativos. Los bocetos comunican arreglos espaciales de manera efectiva sin necesidad de detalles a nivel de píxel, permitiendo a los modelos identificar objetos relevantes y mejorar sus capacidades de generalización.

"Vemos los bocetos como un paso crucial hacia formas más convenientes y expresivas para que los humanos instruyan a los robots," explicó Sundaresan.

El modelo RT-Sketch

RT-Sketch se basa en Robotics Transformer 1 (RT-1), un modelo que traduce instrucciones de lenguaje en comandos robóticos. Los investigadores adaptaron esta arquitectura para utilizar objetivos visuales, incluyendo bocetos e imágenes.

Para entrenar RT-Sketch, usaron el conjunto de datos RT-1, que cuenta con 80,000 grabaciones de tareas teleoperadas en VR, como manipulación de objetos y operaciones de armarios. Inicialmente, crearon bocetos a partir de estas demostraciones seleccionando 500 ejemplos y produciendo representaciones dibujadas a mano de los fotogramas finales del video. Estos bocetos, junto con los fotogramas de video correspondientes, se utilizaron para entrenar una red generativa adversarial (GAN) que convierte imágenes en bocetos.

Entrenamiento y funcionalidad

La GAN generó bocetos para entrenar el modelo RT-Sketch, que se amplió con variaciones para imitar diferentes estilos de dibujo a mano. Durante su operación, el modelo acepta una imagen de la escena y un boceto aproximado del arreglo de objetos deseado, generando una secuencia de comandos para que el robot logre el objetivo especificado.

"RT-Sketch es beneficioso para tareas espaciales donde las instrucciones verbales detalladas serían complicadas o cuando no hay una imagen disponible," indicó Sundaresan.

Por ejemplo, al poner la mesa, el lenguaje como "coloca los utensilios junto al plato" puede generar ambigüedad. Esto podría resultar en múltiples interacciones para aclarar la comprensión del modelo. En cambio, un simple boceto puede indicar claramente el arreglo deseado.

"RT-Sketch también podría ayudar en tareas como desembalar artículos o arreglar muebles en un nuevo espacio, así como en tareas complejas y de múltiples pasos, como doblar ropa," agregó Sundaresan.

Evaluación de RT-Sketch

Los investigadores probaron RT-Sketch en varios escenarios, evaluando seis habilidades de manipulación, como mover objetos, golpear latas y abrir cajones. El modelo se desempeñó de manera comparable a los modelos existentes condicionados por imagen y lenguaje para tareas de manipulación básicas y superó a los modelos basados en lenguaje en escenarios donde las metas eran difíciles de articular.

"Esto indica que los bocetos logran un equilibrio efectivo; son lo suficientemente concisos como para evitar confusiones por distracciones visuales, mientras mantienen el contexto semántico y espacial necesario," destacó Sundaresan.

Direcciones futuras

A futuro, los investigadores planean explorar aplicaciones más amplias para los bocetos, integrándolos potencialmente con otras modalidades como lenguaje, imágenes y gestos humanos. DeepMind tiene varios modelos robóticos utilizando enfoques multimodales, y los hallazgos de RT-Sketch podrían potenciar estos sistemas. También están emocionados por el diverso potencial de los bocetos más allá de la representación visual.

"Los bocetos pueden transmitir movimiento con flechas, representar subobjetivos con bocetos parciales e indicar restricciones con garabatos, proporcionando información valiosa para tareas de manipulación que aún no hemos investigado," concluyó Sundaresan.

Kaedim asegura $15 millones para avanzar en soluciones de creación de activos 3D impulsadas por inteligencia artificial.

Pika Mejora su Video Maker con Efectos de Sonido Generativos de IA para una Creación de Contenido Atractiva

Most people like

Mammouth AI

41.6K

Explora los beneficios de suscribirte a los mejores modelos de IA generativa que potencian tus proyectos. Con una suscripción, obtienes acceso exclusivo a tecnologías de vanguardia diseñadas para mejorar la creatividad, optimizar procesos y fomentar la innovación. Únete a una comunidad creciente de usuarios que están aprovechando el poder de la IA avanzada para desbloquear su potencial y lograr resultados extraordinarios. Eleva tu trabajo con lo mejor en IA generativa: ¡comienza tu suscripción hoy!

Modelos GenAI Large Language Models (LLMs)

Verbalate™

18.8K

Presentamos nuestra herramienta universal de traducción de videos y sincronización de labios: tu solución integral para contenido multilingüe sin interrupciones. Traduce y sincroniza fácilmente el diálogo hablado en videos para cautivar audiencias globales. Experimenta un mayor compromiso y accesibilidad para todos los espectadores, sin importar las barreras lingüísticas. ¡Transforma tus proyectos multimedia con nuestra tecnología de vanguardia hoy mismo!

traducción de video Translate

CapMonster Cloud

338.4K

Presentamos CapMonster Cloud: un servicio avanzado de resolución de CAPTCHA impulsado por IA que agiliza la automatización para resolver una amplia variedad de CAPTCHAs, incluyendo reCAPTCHA, hCaptcha y más. Con su tecnología innovadora, CapMonster Cloud mejora la eficiencia y la experiencia del usuario al navegar por plataformas en línea.

Raspado web AI Image Recognition

LegalForce

232.8K

Mejora Tu Proceso de Revisión de Contratos con Nuestra Plataforma de IA: Aumenta Calidad y Eficiencia En el acelerado entorno empresarial actual, garantizar la precisión y eficiencia de las revisiones de contratos es fundamental. Nuestra innovadora plataforma de IA está diseñada para mejorar significativamente la calidad del análisis de contratos, al tiempo que optimiza el proceso de revisión. Descubre cómo aprovechar la inteligencia artificial avanzada puede transformar la gestión de tus contratos, ahorrando tiempo y reduciendo errores. Acepta el futuro de la revisión de contratos con una eficiencia y efectividad sin igual.

Revisión de contratos de IA AI Contract Management

Find AI tools in YBX