Modelos Fundamentais e Robótica: A Ascensão do OpenVLA
Modelos fundamentais têm impulsionado significativamente a robótica ao facilitar o desenvolvimento de modelos de visão-linguagem-ação (VLA). Esses modelos têm a capacidade de generalizar objetos, cenários e tarefas além dos dados de treinamento iniciais. No entanto, sua adoção tem sido limitada devido à sua natureza fechada e à falta de práticas recomendadas para implantação e adaptação a novos ambientes.
Apresentando o OpenVLA
Para enfrentar esses desafios, pesquisadores da Stanford University, UC Berkeley, Toyota Research Institute, Google DeepMind e outras instituições lançaram o OpenVLA, um modelo VLA de código aberto treinado em um conjunto diversificado de demonstrações robóticas do mundo real. O OpenVLA não apenas supera outros modelos em tarefas robóticas, mas também permite um ajuste fino fácil para aprimorar o desempenho em ambientes multitarefa com diversos objetos. Projetado para eficiência, utiliza técnicas de otimização para rodar em GPUs de consumo com custos de ajuste fino mínimos.
A Importância dos Modelos de Visão-Linguagem-Ação
Métodos tradicionais de manipulação robótica frequentemente enfrentam dificuldades para generalizar além de seus cenários de treinamento. Eles tendem a ser ineficazes diante de distrações ou objetos desconhecidos e têm dificuldades para se adaptar a instruções de tarefa levemente alteradas. Em contraste, grandes modelos de linguagem (LLMs) e modelos de visão-linguagem (VLMs) se destacam na generalização devido a seus extensos conjuntos de dados pré-treinados na internet. Recentemente, laboratórios de pesquisa começaram a integrar LLMs e VLMs como componentes fundamentais para desenvolver políticas robóticas.
Duas abordagens proeminentes incluem o aproveitamento de LLMs e VLMs pré-treinados dentro de sistemas modulares para planejamento e execução de tarefas, além da construção de VLAs desde o início para gerar ações diretas de controle robótico. Exemplos notáveis, como RT-2 e RT-2-X, estabeleceram novos padrões para políticas de robôs generalistas.
Entretanto, os VLAs atuais enfrentam dois grandes desafios: sua arquitetura fechada, que limita a transparência no treinamento e mistura de dados, e a ausência de práticas padrão para sua implantação e adaptação em novos robôs e tarefas. Os pesquisadores destacam a necessidade de VLAs generalistas de código aberto para fomentar uma adaptação eficaz, refletindo o ecossistema de código aberto existente para modelos de linguagem.
A Arquitetura do OpenVLA
O OpenVLA, composto por 7 bilhões de parâmetros, é baseado no modelo de visão-linguagem Prismatic-7B e inclui um codificador visual de duas partes para extração de características de imagem, combinado com um modelo de linguagem LLaMA-2 7B para processamento de instruções. Ajustado fino com 970.000 trajetórias de manipulação robótica do conjunto de dados Open-X Embodiment, o OpenVLA abrange uma ampla gama de tarefas e ambientes robóticos, gerando tokens de ação mapeados para ações específicas do robô.
O OpenVLA recebe instruções em linguagem natural juntamente com imagens de entrada, raciocinando por meio de ambos para determinar a sequência ideal de ações necessárias para completar tarefas como "limpar a mesa". Notavelmente, ele supera o modelo RT-2-X de 55 bilhões de parâmetros, anteriormente considerado o estado da arte para as emanações WidowX e Google Robot.
Ajuste Fino e Eficiência
Os pesquisadores exploraram estratégias de ajuste fino eficientes em sete tarefas de manipulação, demonstrando que as políticas do OpenVLA ajustadas finamente superam as alternativas pré-treinadas, especialmente na tradução de instruções em linguagem para comportamentos multitarefa envolvendo diversos objetos. O OpenVLA alcança uma taxa de sucesso superior a 50% em todas as tarefas testadas, posicionando-o como uma opção confiável para aprendizado por imitação em cenários diversos.
Em busca de acessibilidade e eficiência, a equipe utilizou adaptação de baixa classificação (LoRA) para o ajuste fino, conseguindo ajustes específicos em tarefas dentro de 10 a 15 horas em um único GPU A100—uma redução significativa nas demandas computacionais. A quantização do modelo ainda diminuiu seu tamanho, permitindo a implantação em GPUs de consumo sem sacrificar o desempenho.
Open-Sourcing OpenVLA
Os pesquisadores disponibilizaram como código aberto o modelo completo do OpenVLA, juntamente com notebooks e códigos para a implantação e ajuste fino de treinamentos VLA escaláveis. Eles antecipam que esses recursos estimularão uma exploração e adaptação adicionais dos VLAs na robótica. A biblioteca suporta o ajuste fino em GPUs individuais e pode orquestrar o treinamento de VLAs de bilhões de parâmetros em clusters de GPU multi-nó, alinhando-se com técnicas contemporâneas de otimização e paralelização.
Desenvolvimentos futuros para o OpenVLA visam incorporar múltiplas entradas de imagem e proprioceptivas, além do histórico de observações. Além disso, aproveitar VLMs pré-treinados em dados intercalados de imagem e texto pode aumentar a flexibilidade do ajuste fino do VLA.
Com o OpenVLA, a comunidade de robótica está prestes a alcançar avanços notáveis, tornando os modelos VLA mais acessíveis e adaptáveis para diversas aplicações.