La OK-Robot de Meta logra una capacidad de pick-and-drop en entornos no entrenados sin necesidad de ejemplos previos.

Avances recientes en modelos de visión-lenguaje (VLMs) han permitido la coincidencia entre consultas en lenguaje natural y objetos en escenas visuales. Investigadores están explorando cómo integrar estos modelos en sistemas robóticos, que a menudo tienen dificultades para generalizar sus capacidades.

Un artículo innovador de investigadores de Meta AI y la Universidad de Nueva York presenta un marco de conocimiento abierto denominado OK-Robot. Este sistema revolucionario combina modelos de aprendizaje automático (ML) preentrenados para realizar tareas en entornos desconocidos, específicamente en operaciones de recogida y entrega sin necesidad de entrenamiento adicional.

Los Desafíos de los Sistemas Robóticos Actuales

La mayoría de los sistemas robóticos están diseñados para entornos que han encontrado previamente, lo que limita su capacidad de adaptarse a nuevos espacios, especialmente en lugares no estructurados como hogares. A pesar de los avances significativos en diversos componentes—como los VLMs que sobresalen en vincular solicitudes de lenguaje con objetos visuales y las habilidades robóticas que mejoran en navegación y agarre—la integración de estas tecnologías aún resulta en un rendimiento subóptimo.

Los investigadores señalan: "Avanzar en este problema requiere un marco cuidadoso y matizado que integre VLMs y primitivas robóticas mientras se mantiene lo suficientemente flexible para incorporar nuevos modelos de las comunidades de VLM y robótica."

Descripción General de OK-Robot

OK-Robot integra VLMs de última generación con robustos mecanismos robóticos para ejecutar tareas de recogida y entrega en entornos desconocidos. Utiliza modelos entrenados en extensos conjuntos de datos públicos disponibles.

El marco consta de tres subsistemas principales: un módulo de navegación de objetos de vocabulario abierto, un módulo de agarre RGB-D y un sistema heurístico de entrega. Al entrar en un nuevo espacio, OK-Robot requiere un escaneo manual, que puede realizarse fácilmente mediante una aplicación de iPhone que captura una serie de imágenes RGB-D mientras el usuario se mueve por el área. Estas imágenes, junto con la posición de la cámara, crean un mapa de entorno en 3D.

Cada imagen es procesada utilizando un modelo de transformador de visión (ViT) para extraer información sobre los objetos. Estos datos, junto con el contexto ambiental, se alimentan en un módulo de memoria de objetos semánticos, permitiendo al sistema responder a consultas en lenguaje natural para la recuperación de objetos. La memoria calcula incorporaciones de las solicitudes de voz y las empareja con la representación semántica más cercana. Los algoritmos de navegación trazan entonces la ruta más eficiente hacia el objeto, asegurando que el robot tenga suficiente espacio para agarrarlo de manera segura.

Finalmente, el robot emplea una cámara RGB-D con un modelo de segmentación de objetos y un modelo de agarre preentrenado para recoger el objeto. Se aplica un método similar para navegar al punto de entrega. Este sistema permite al robot determinar el agarre más adecuado para diferentes tipos de objetos y gestionar ubicaciones de destino que pueden no estar niveladas.

"Desde la entrada a un entorno completamente nuevo hasta el inicio de operaciones autónomas, nuestro sistema promedia menos de 10 minutos para completar su primera tarea de recogida y entrega," informan los investigadores.

Pruebas y Resultados

Los investigadores evaluaron OK-Robot en diez hogares, llevando a cabo 171 experimentos de recogida y entrega. Completó con éxito operaciones completas el 58% de las veces, mostrando sus capacidades de aprendizaje en cero disparos—es decir, los modelos no se entrenaron explícitamente para estos entornos. Al refinar las consultas de entrada, despejar espacios y minimizar objetos adversos, la tasa de éxito puede superar el 82%.

A pesar de su potencial, OK-Robot tiene limitaciones. Ocasionalmente desalineada las solicitudes en lenguaje natural con los objetos correctos, tiene dificultades con ciertos agarres y presenta limitaciones de hardware. Además, el módulo de memoria de objetos se mantiene estático después del escaneo, impidiendo que el robot se adapte a cambios en la disposición o disponibilidad de los objetos.

A pesar de estos desafíos, el proyecto OK-Robot proporciona valiosas ideas. Primero, demuestra que los VLMs de vocabulario abierto actuales sobresalen en la identificación de diversos objetos del mundo real y en la navegación hacia ellos mediante aprendizaje en cero disparos. Además, confirma que modelos robóticos especializados preentrenados en vastos conjuntos de datos pueden facilitar sin problemas el agarre de vocabulario abierto en entornos novedosos. Por último, destaca el potencial de combinar modelos preentrenados para lograr tareas de cero disparos sin necesidad de entrenamiento adicional, allanan el camino para futuros avances en este campo emergente.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles