Avanços recentes em modelos de linguagem-visual (VLMs) possibilitam o emparelhamento de consultas em linguagem natural com objetos em cenas visuais. Pesquisadores estão explorando a integração desses modelos em sistemas robóticos, que frequentemente enfrentam dificuldades para generalizar suas capacidades.
Um artigo inovador de pesquisadores da Meta AI e da Universidade de Nova York apresenta uma estrutura baseada em conhecimento aberto chamada OK-Robot. Este sistema inovador combina modelos de aprendizado de máquina (ML) pré-treinados para realizar tarefas em ambientes desconhecidos, especificamente operações de pegar e soltar, sem a necessidade de treinamento adicional.
Os Desafios dos Sistemas Robóticos Atuais
A maioria dos sistemas robóticos é projetada para ambientes que já encontrou, limitando sua capacidade de adaptação a novas configurações, especialmente em espaços não estruturados, como residências. Apesar dos avanços significativos em diversos componentes—como VLMs que se destacam na correlação entre comandos em linguagem e objetos visuais e melhorias nas habilidades robóticas em navegação e apreensão—integrar essas tecnologias ainda resulta em desempenho subótimo.
Os pesquisadores afirmam: "Avançar nessa questão requer uma estrutura cuidadosa e nuance que integre VLMs e primitivas robóticas, mantendo-se flexível o suficiente para incorporar novos modelos das comunidades de VLM e robótica."
Visão Geral do OK-Robot
O OK-Robot integra VLMs de ponta com robustos mecanismos robóticos para executar tarefas de pegar e soltar em ambientes desconhecidos. Ele utiliza modelos treinados em extensos conjuntos de dados públicos disponíveis.
A estrutura é composta por três subsistemas principais: um módulo de navegação de objetos de vocabulário aberto, um módulo de apreensão RGB-D, e um sistema heurístico de desapego. Ao entrar em um novo espaço, o OK-Robot requer um escaneamento manual, facilmente realizado com um aplicativo do iPhone que captura uma série de imagens RGB-D enquanto o usuário se move pela área. Essas imagens, combinadas com a posição da câmera, criam um mapa de ambiente em 3D.
Cada imagem é processada usando um modelo de transformador de visão (ViT) para extrair informações sobre os objetos. Esses dados, em conjunto com o contexto ambiental, alimentam um módulo de memória semântica de objetos, permitindo que o sistema responda a consultas em linguagem natural para recuperação de objetos. A memória computa embeddings de comandos de voz e os relaciona à representação semântica mais próxima. Algoritmos de navegação, então, traçam o caminho mais eficiente até o objeto, garantindo que o robô tenha espaço adequado para pegá-lo com segurança.
Por fim, o robô utiliza uma câmera RGB-D com um modelo de segmentação de objetos e um modelo de apreensão pré-treinado para pegar o item. Um método semelhante é aplicado para navegar até o ponto de entrega. Esse sistema permite que o robô determine a melhor apreensão para diferentes tipos de objetos e gerencie locais de destino que podem não ser nivelados. "Da entrada em um ambiente completamente novo até o início de operações autônomas, nosso sistema leva em média menos de 10 minutos para completar sua primeira tarefa de pegar e soltar", reportam os pesquisadores.
Testes e Resultados
Os pesquisadores avaliaram o OK-Robot em dez lares, realizando 171 experimentos de pegar e soltar. Ele completou operações com sucesso 58% das vezes, demonstrando suas capacidades zero-shot—significando que os modelos não foram explicitamente treinados para esses ambientes. Ao refinar consultas de entrada, desobstruir espaços e minimizar objetos adversários, a taxa de sucesso pode ultrapassar 82%.
Apesar de seu potencial, o OK-Robot apresenta limitações. Ocasionalmente, ele desalinha comandos em linguagem natural com os objetos corretos, enfrenta dificuldades com certos tipos de apreensão e possui restrições de hardware. Além disso, o módulo de memória de objetos permanece estático após o escaneamento, impedindo que o robô se adapte a alterações na posição ou disponibilidade dos objetos.
Apesar desses desafios, o projeto OK-Robot oferece insights valiosos. Primeiramente, demonstra que os atuais VLMs de vocabulário aberto se destacam na identificação de diversos objetos do mundo real e na navegação até eles com aprendizado zero-shot. Adicionalmente, confirma que modelos robóticos especializados, pré-treinados em vastos conjuntos de dados, podem facilitar de maneira eficiente a apreensão de vocabulário aberto em novos ambientes. Por último, ressalta o potencial de combinar modelos pré-treinados para realizar tarefas zero-shot sem treinamento adicional, abrindo caminho para futuros avanços neste campo emergente.