OpenVLA: Um Framework de Robótica Generalista de Código Aberto para Aplicações Versáteis

Home Notícias de IA OpenVLA: Um Framework de Robótica Generalista de Código Aberto para Aplicações Versáteis

Modelos Fundamentais e Robótica: A Ascensão do OpenVLA

Modelos fundamentais têm impulsionado significativamente a robótica ao facilitar o desenvolvimento de modelos de visão-linguagem-ação (VLA). Esses modelos têm a capacidade de generalizar objetos, cenários e tarefas além dos dados de treinamento iniciais. No entanto, sua adoção tem sido limitada devido à sua natureza fechada e à falta de práticas recomendadas para implantação e adaptação a novos ambientes.

Apresentando o OpenVLA

Para enfrentar esses desafios, pesquisadores da Stanford University, UC Berkeley, Toyota Research Institute, Google DeepMind e outras instituições lançaram o OpenVLA, um modelo VLA de código aberto treinado em um conjunto diversificado de demonstrações robóticas do mundo real. O OpenVLA não apenas supera outros modelos em tarefas robóticas, mas também permite um ajuste fino fácil para aprimorar o desempenho em ambientes multitarefa com diversos objetos. Projetado para eficiência, utiliza técnicas de otimização para rodar em GPUs de consumo com custos de ajuste fino mínimos.

A Importância dos Modelos de Visão-Linguagem-Ação

Métodos tradicionais de manipulação robótica frequentemente enfrentam dificuldades para generalizar além de seus cenários de treinamento. Eles tendem a ser ineficazes diante de distrações ou objetos desconhecidos e têm dificuldades para se adaptar a instruções de tarefa levemente alteradas. Em contraste, grandes modelos de linguagem (LLMs) e modelos de visão-linguagem (VLMs) se destacam na generalização devido a seus extensos conjuntos de dados pré-treinados na internet. Recentemente, laboratórios de pesquisa começaram a integrar LLMs e VLMs como componentes fundamentais para desenvolver políticas robóticas.

Duas abordagens proeminentes incluem o aproveitamento de LLMs e VLMs pré-treinados dentro de sistemas modulares para planejamento e execução de tarefas, além da construção de VLAs desde o início para gerar ações diretas de controle robótico. Exemplos notáveis, como RT-2 e RT-2-X, estabeleceram novos padrões para políticas de robôs generalistas.

Entretanto, os VLAs atuais enfrentam dois grandes desafios: sua arquitetura fechada, que limita a transparência no treinamento e mistura de dados, e a ausência de práticas padrão para sua implantação e adaptação em novos robôs e tarefas. Os pesquisadores destacam a necessidade de VLAs generalistas de código aberto para fomentar uma adaptação eficaz, refletindo o ecossistema de código aberto existente para modelos de linguagem.

A Arquitetura do OpenVLA

O OpenVLA, composto por 7 bilhões de parâmetros, é baseado no modelo de visão-linguagem Prismatic-7B e inclui um codificador visual de duas partes para extração de características de imagem, combinado com um modelo de linguagem LLaMA-2 7B para processamento de instruções. Ajustado fino com 970.000 trajetórias de manipulação robótica do conjunto de dados Open-X Embodiment, o OpenVLA abrange uma ampla gama de tarefas e ambientes robóticos, gerando tokens de ação mapeados para ações específicas do robô.

O OpenVLA recebe instruções em linguagem natural juntamente com imagens de entrada, raciocinando por meio de ambos para determinar a sequência ideal de ações necessárias para completar tarefas como "limpar a mesa". Notavelmente, ele supera o modelo RT-2-X de 55 bilhões de parâmetros, anteriormente considerado o estado da arte para as emanações WidowX e Google Robot.

Ajuste Fino e Eficiência

Os pesquisadores exploraram estratégias de ajuste fino eficientes em sete tarefas de manipulação, demonstrando que as políticas do OpenVLA ajustadas finamente superam as alternativas pré-treinadas, especialmente na tradução de instruções em linguagem para comportamentos multitarefa envolvendo diversos objetos. O OpenVLA alcança uma taxa de sucesso superior a 50% em todas as tarefas testadas, posicionando-o como uma opção confiável para aprendizado por imitação em cenários diversos.

Em busca de acessibilidade e eficiência, a equipe utilizou adaptação de baixa classificação (LoRA) para o ajuste fino, conseguindo ajustes específicos em tarefas dentro de 10 a 15 horas em um único GPU A100—uma redução significativa nas demandas computacionais. A quantização do modelo ainda diminuiu seu tamanho, permitindo a implantação em GPUs de consumo sem sacrificar o desempenho.

Open-Sourcing OpenVLA

Os pesquisadores disponibilizaram como código aberto o modelo completo do OpenVLA, juntamente com notebooks e códigos para a implantação e ajuste fino de treinamentos VLA escaláveis. Eles antecipam que esses recursos estimularão uma exploração e adaptação adicionais dos VLAs na robótica. A biblioteca suporta o ajuste fino em GPUs individuais e pode orquestrar o treinamento de VLAs de bilhões de parâmetros em clusters de GPU multi-nó, alinhando-se com técnicas contemporâneas de otimização e paralelização.

Desenvolvimentos futuros para o OpenVLA visam incorporar múltiplas entradas de imagem e proprioceptivas, além do histórico de observações. Além disso, aproveitar VLMs pré-treinados em dados intercalados de imagem e texto pode aumentar a flexibilidade do ajuste fino do VLA.

Com o OpenVLA, a comunidade de robótica está prestes a alcançar avanços notáveis, tornando os modelos VLA mais acessíveis e adaptáveis para diversas aplicações.

Decagon Lança Agentes de IA ‘Semelhantes a Humanos’ para Revolucionar o Suporte ao Cliente Empresarial em Modo Oculto

Augie Studio: Revolucionando a Criação de Vídeos com IA para Marqueteiros e Empresas como o Canva

Most people like

Behnevis

73.8K

Alcançar uma transliteração precisa e uma conversão eficaz de fala para texto em persa é crucial para melhorar a comunicação e a acessibilidade. Ao transformar o persa falado em texto escrito de forma precisa, podemos superar lacunas linguísticas, facilitar a compreensão e promover a troca cultural. Este guia explora as ferramentas e técnicas essenciais necessárias para uma transliteração precisa do persa e reconhecimento de fala, garantindo uma interação fluida para falantes e aprendizes do persa.

Transliteração persa Other

ContextQA

25.9K

Otimize Seu Processo de Relatórios de Testes Manuais para Melhorar a Qualidade do Software Descubra como a automação dos relatórios de testes manuais pode aumentar significativamente a qualidade do seu software. Ao eliminar tarefas tediosas e aumentar a eficiência, você poderá se concentrar mais no desenvolvimento de aplicações robustas e na entrega de experiências superiores aos usuários.

IA Other

Leonardo.ai

15.9M

Revolucione seus projetos criativos com geração de ativos impulsionada por IA. Aproveite o poder da inteligência artificial para produzir, de forma fácil, ativos únicos e de alta qualidade, aprimorando seu processo de design e criatividade. Descubra como ferramentas inovadoras de IA podem elevar seus projetos a novos patamares.

Impulsionado por IA AI Art Generator

Lingvanex

1.2M

A Lingvanex oferece uma variedade de ferramentas de tradução avançadas, impulsionadas por tradução automática neural, projetadas para aumentar a produtividade e otimizar a comunicação.

tradutor Translate

Find AI tools in YBX