OpenVLA: Un Marco de Robótica Generalista de Código Abierto para Aplicaciones Versátiles

Home Noticias de IA OpenVLA: Un Marco de Robótica Generalista de Código Abierto para Aplicaciones Versátiles

Modelos Fundamentales y Robótica: El Surgimiento de OpenVLA

Los modelos fundamentales han avanzado notablemente en la robótica al facilitar el desarrollo de modelos de visión-lenguaje-acción (VLA). Estos modelos pueden generalizar objetos, escenas y tareas más allá de sus datos de entrenamiento inicial. Sin embargo, su adopción ha sido limitada debido a su naturaleza cerrada y la falta de mejores prácticas para su implementación y adaptación a nuevos entornos.

Presentando OpenVLA

Para abordar estos desafíos, investigadores de la Universidad de Stanford, UC Berkeley, Toyota Research Institute, Google DeepMind y otras instituciones han lanzado OpenVLA, un modelo VLA de código abierto entrenado con un conjunto diverso de demostraciones reales de robots. OpenVLA no solo supera a otros modelos en tareas de robótica, sino que también permite una fácil adaptación para mejorar el rendimiento en entornos multitarea con varios objetos. Diseñado para ser eficiente, emplea técnicas de optimización para funcionar en GPUs de gama consumidora con mínimos costos de ajuste.

La Importancia de los Modelos de Visión-Lenguaje-Acción

Los métodos tradicionales de manipulación robótica a menudo tienen dificultades para generalizar más allá de sus escenarios de entrenamiento. Generalmente, son ineficaces ante distracciones o objetos no vistos, y tienen problemas para adaptarse a instrucciones de tarea ligeramente modificadas. En contraste, los grandes modelos de lenguaje (LLMs) y los modelos de visión-lenguaje (VLMs) destacan en la generalización gracias a sus extensos conjuntos de datos de preentrenamiento a escala de internet. Recientemente, laboratorios de investigación han comenzado a integrar LLMs y VLMs como componentes fundamentales para desarrollar políticas robóticas.

Dos enfoques prominentes incluyen aprovechar LLMs y VLMs preentrenados dentro de sistemas modulares para la planificación y ejecución de tareas, y construir VLAs desde cero para generar acciones de control directo del robot. Ejemplos notables, como RT-2 y RT-2-X, han establecido nuevos estándares para políticas robóticas generalistas.

Sin embargo, los VLAs actuales enfrentan dos desafíos principales: su arquitectura cerrada, que limita la transparencia en el entrenamiento y la mezcla de datos, y la ausencia de prácticas estándar para implementarlos y adaptarlos a nuevos robots y tareas. Los investigadores enfatizan la necesidad de VLAs generalistas de código abierto para fomentar una adaptación efectiva, reflejando el ecosistema existente de código abierto para modelos de lenguaje.

La Arquitectura de OpenVLA

OpenVLA, que cuenta con 7 mil millones de parámetros, se basa en el modelo de visión-lenguaje Prismatic-7B e incluye un codificador visual de dos partes para la extracción de características de imágenes, emparejado con un modelo de lenguaje LLaMA-2 de 7B para procesar instrucciones. Ajustado con 970,000 trayectorias de manipulación robótica del conjunto de datos Open-X Embodiment, OpenVLA abarca un amplio espectro de tareas y entornos robóticos, generando tokens de acción mapeados a acciones específicas del robot.

OpenVLA recibe instrucciones en lenguaje natural junto con imágenes de entrada, razonando a través de ambos para determinar la secuencia óptima de acciones necesarias para completar tareas como "limpiar la mesa". Notablemente, supera al modelo RT-2-X de 55 mil millones de parámetros, previamente considerado el mejor en implementaciones de WidowX y Google Robot.

Ajuste y Eficiencia

Los investigadores exploraron estrategias de ajuste eficiente en siete tareas de manipulación, mostrando que las políticas de OpenVLA ajustadas superan a las alternativas preentrenadas, especialmente al traducir instrucciones de lenguaje en comportamientos multitarea que involucran varios objetos. OpenVLA logra más del 50% de tasa de éxito en todas las tareas probadas, posicionándose como una opción fiable para el aprendizaje por imitación en diversos escenarios.

En busca de accesibilidad y eficiencia, el equipo empleó adaptación de rango bajo (LoRA) para el ajuste, logrando modificaciones específicas de tarea en 10-15 horas en una sola GPU A100, lo que representa una reducción significativa en las demandas computacionales. La cuantización del modelo también redujo su tamaño, permitiendo su implementación en GPUs de gama consumidora sin sacrificar rendimiento.

Código Abierto de OpenVLA

Los investigadores han puesto a disposición el modelo completo de OpenVLA, junto con cuadernos y código para su implementación y ajuste a escala VLA. Anticipan que estos recursos impulsarán una mayor exploración y adaptación de los VLAs en la robótica. La biblioteca admite el ajuste en GPUs individuales y puede orquestar el entrenamiento de VLAs de mil millones de parámetros en clústeres de GPU de múltiples nodos, alineándose con técnicas contemporáneas de optimización y paralelización.

Los futuros desarrollos de OpenVLA tienen como objetivo incorporar múltiples entradas de imagen y propriocepción, junto con el historial de observaciones. Además, aprovechar VLMs preentrenados en datos entrelazados de imágenes y texto podría mejorar la flexibilidad del ajuste del VLA.

Con OpenVLA, la comunidad robótica está al borde de avances notables, haciendo que los modelos VLA sean más accesibles y adaptables para diversas aplicaciones.

Decagon presenta agentes de IA "humanos" para revolucionar el soporte al cliente empresarial desde su modo secreto.

Augie Studio: Revolucionando la Creación de Videos con IA para Marketers y Empresas, al Igual que Canva

Most people like

Code Generator for Arduino

37.3K

Descubre cómo un sitio web impulsado por IA puede optimizar el desarrollo de tus proyectos generando código Arduino con un solo clic. Simplificar el proceso de codificación permite a creadores de todos los niveles dar vida a sus ideas sin esfuerzo.

Arduino AI Code Generator

Formshare

14.7K

En el paisaje digital actual, la capacidad de crear formularios personalizados de manera rápida es esencial para las empresas. Con herramientas avanzadas de inteligencia artificial, puedes diseñar fácilmente formularios inteligentes sin necesidad de conocimientos en programación. Este enfoque amigable capacita a cualquiera—desde emprendedores hasta mercadólogos—para optimizar la recolección de datos y mejorar las experiencias de los usuarios, todo mientras ahorras tiempo y recursos. Descubre cómo la creación de formularios impulsada por IA simplifica tu flujo de trabajo y eleva tus proyectos, haciéndolos accesibles para todos, independientemente de su habilidad técnica.

IA conversacional No-Code&Low-Code

Gulf Picasso

588.8K

Descubre la sinergia entre la inteligencia artificial y el árabe dentro de un ecosistema unificado. A medida que la inteligencia artificial sigue transformando industrias en todo el mundo, su integración con el idioma árabe presenta oportunidades y desafíos únicos. Esta intersección dinámica no solo mejora la comunicación y la accesibilidad, sino que también fomenta la innovación en diversos sectores, desde la educación hasta los negocios. Explora cómo la IA está transformando el panorama del idioma árabe y impulsando el crecimiento en el mundo árabe.

IA AI Photo & Image Generator

GoEnhance AI

881.3K

Eleva tu contenido visual transformando videos y mejorando imágenes con el poder de la tecnología de IA.

Inteligencia Artificial AI Video Enhancer

Find AI tools in YBX