OpenVLA: Un Marco de Robótica Generalista de Código Abierto para Aplicaciones Versátiles

Modelos Fundamentales y Robótica: El Surgimiento de OpenVLA

Los modelos fundamentales han avanzado notablemente en la robótica al facilitar el desarrollo de modelos de visión-lenguaje-acción (VLA). Estos modelos pueden generalizar objetos, escenas y tareas más allá de sus datos de entrenamiento inicial. Sin embargo, su adopción ha sido limitada debido a su naturaleza cerrada y la falta de mejores prácticas para su implementación y adaptación a nuevos entornos.

Presentando OpenVLA

Para abordar estos desafíos, investigadores de la Universidad de Stanford, UC Berkeley, Toyota Research Institute, Google DeepMind y otras instituciones han lanzado OpenVLA, un modelo VLA de código abierto entrenado con un conjunto diverso de demostraciones reales de robots. OpenVLA no solo supera a otros modelos en tareas de robótica, sino que también permite una fácil adaptación para mejorar el rendimiento en entornos multitarea con varios objetos. Diseñado para ser eficiente, emplea técnicas de optimización para funcionar en GPUs de gama consumidora con mínimos costos de ajuste.

La Importancia de los Modelos de Visión-Lenguaje-Acción

Los métodos tradicionales de manipulación robótica a menudo tienen dificultades para generalizar más allá de sus escenarios de entrenamiento. Generalmente, son ineficaces ante distracciones o objetos no vistos, y tienen problemas para adaptarse a instrucciones de tarea ligeramente modificadas. En contraste, los grandes modelos de lenguaje (LLMs) y los modelos de visión-lenguaje (VLMs) destacan en la generalización gracias a sus extensos conjuntos de datos de preentrenamiento a escala de internet. Recientemente, laboratorios de investigación han comenzado a integrar LLMs y VLMs como componentes fundamentales para desarrollar políticas robóticas.

Dos enfoques prominentes incluyen aprovechar LLMs y VLMs preentrenados dentro de sistemas modulares para la planificación y ejecución de tareas, y construir VLAs desde cero para generar acciones de control directo del robot. Ejemplos notables, como RT-2 y RT-2-X, han establecido nuevos estándares para políticas robóticas generalistas.

Sin embargo, los VLAs actuales enfrentan dos desafíos principales: su arquitectura cerrada, que limita la transparencia en el entrenamiento y la mezcla de datos, y la ausencia de prácticas estándar para implementarlos y adaptarlos a nuevos robots y tareas. Los investigadores enfatizan la necesidad de VLAs generalistas de código abierto para fomentar una adaptación efectiva, reflejando el ecosistema existente de código abierto para modelos de lenguaje.

La Arquitectura de OpenVLA

OpenVLA, que cuenta con 7 mil millones de parámetros, se basa en el modelo de visión-lenguaje Prismatic-7B e incluye un codificador visual de dos partes para la extracción de características de imágenes, emparejado con un modelo de lenguaje LLaMA-2 de 7B para procesar instrucciones. Ajustado con 970,000 trayectorias de manipulación robótica del conjunto de datos Open-X Embodiment, OpenVLA abarca un amplio espectro de tareas y entornos robóticos, generando tokens de acción mapeados a acciones específicas del robot.

OpenVLA recibe instrucciones en lenguaje natural junto con imágenes de entrada, razonando a través de ambos para determinar la secuencia óptima de acciones necesarias para completar tareas como "limpiar la mesa". Notablemente, supera al modelo RT-2-X de 55 mil millones de parámetros, previamente considerado el mejor en implementaciones de WidowX y Google Robot.

Ajuste y Eficiencia

Los investigadores exploraron estrategias de ajuste eficiente en siete tareas de manipulación, mostrando que las políticas de OpenVLA ajustadas superan a las alternativas preentrenadas, especialmente al traducir instrucciones de lenguaje en comportamientos multitarea que involucran varios objetos. OpenVLA logra más del 50% de tasa de éxito en todas las tareas probadas, posicionándose como una opción fiable para el aprendizaje por imitación en diversos escenarios.

En busca de accesibilidad y eficiencia, el equipo empleó adaptación de rango bajo (LoRA) para el ajuste, logrando modificaciones específicas de tarea en 10-15 horas en una sola GPU A100, lo que representa una reducción significativa en las demandas computacionales. La cuantización del modelo también redujo su tamaño, permitiendo su implementación en GPUs de gama consumidora sin sacrificar rendimiento.

Código Abierto de OpenVLA

Los investigadores han puesto a disposición el modelo completo de OpenVLA, junto con cuadernos y código para su implementación y ajuste a escala VLA. Anticipan que estos recursos impulsarán una mayor exploración y adaptación de los VLAs en la robótica. La biblioteca admite el ajuste en GPUs individuales y puede orquestar el entrenamiento de VLAs de mil millones de parámetros en clústeres de GPU de múltiples nodos, alineándose con técnicas contemporáneas de optimización y paralelización.

Los futuros desarrollos de OpenVLA tienen como objetivo incorporar múltiples entradas de imagen y propriocepción, junto con el historial de observaciones. Además, aprovechar VLMs preentrenados en datos entrelazados de imágenes y texto podría mejorar la flexibilidad del ajuste del VLA.

Con OpenVLA, la comunidad robótica está al borde de avances notables, haciendo que los modelos VLA sean más accesibles y adaptables para diversas aplicaciones.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles