O OK-Robot da Meta Alcança Capacidade de Pick-and-Drop Zero-Shot em Ambientes Não Treinados

Home Notícias de IA O OK-Robot da Meta Alcança Capacidade de Pick-and-Drop Zero-Shot em Ambientes Não Treinados

Updated on janeiro 29 2024

Avanços recentes em modelos de linguagem-visual (VLMs) possibilitam o emparelhamento de consultas em linguagem natural com objetos em cenas visuais. Pesquisadores estão explorando a integração desses modelos em sistemas robóticos, que frequentemente enfrentam dificuldades para generalizar suas capacidades.

Um artigo inovador de pesquisadores da Meta AI e da Universidade de Nova York apresenta uma estrutura baseada em conhecimento aberto chamada OK-Robot. Este sistema inovador combina modelos de aprendizado de máquina (ML) pré-treinados para realizar tarefas em ambientes desconhecidos, especificamente operações de pegar e soltar, sem a necessidade de treinamento adicional.

Os Desafios dos Sistemas Robóticos Atuais

A maioria dos sistemas robóticos é projetada para ambientes que já encontrou, limitando sua capacidade de adaptação a novas configurações, especialmente em espaços não estruturados, como residências. Apesar dos avanços significativos em diversos componentes—como VLMs que se destacam na correlação entre comandos em linguagem e objetos visuais e melhorias nas habilidades robóticas em navegação e apreensão—integrar essas tecnologias ainda resulta em desempenho subótimo.

Os pesquisadores afirmam: "Avançar nessa questão requer uma estrutura cuidadosa e nuance que integre VLMs e primitivas robóticas, mantendo-se flexível o suficiente para incorporar novos modelos das comunidades de VLM e robótica."

Visão Geral do OK-Robot

O OK-Robot integra VLMs de ponta com robustos mecanismos robóticos para executar tarefas de pegar e soltar em ambientes desconhecidos. Ele utiliza modelos treinados em extensos conjuntos de dados públicos disponíveis.

A estrutura é composta por três subsistemas principais: um módulo de navegação de objetos de vocabulário aberto, um módulo de apreensão RGB-D, e um sistema heurístico de desapego. Ao entrar em um novo espaço, o OK-Robot requer um escaneamento manual, facilmente realizado com um aplicativo do iPhone que captura uma série de imagens RGB-D enquanto o usuário se move pela área. Essas imagens, combinadas com a posição da câmera, criam um mapa de ambiente em 3D.

Cada imagem é processada usando um modelo de transformador de visão (ViT) para extrair informações sobre os objetos. Esses dados, em conjunto com o contexto ambiental, alimentam um módulo de memória semântica de objetos, permitindo que o sistema responda a consultas em linguagem natural para recuperação de objetos. A memória computa embeddings de comandos de voz e os relaciona à representação semântica mais próxima. Algoritmos de navegação, então, traçam o caminho mais eficiente até o objeto, garantindo que o robô tenha espaço adequado para pegá-lo com segurança.

Por fim, o robô utiliza uma câmera RGB-D com um modelo de segmentação de objetos e um modelo de apreensão pré-treinado para pegar o item. Um método semelhante é aplicado para navegar até o ponto de entrega. Esse sistema permite que o robô determine a melhor apreensão para diferentes tipos de objetos e gerencie locais de destino que podem não ser nivelados. "Da entrada em um ambiente completamente novo até o início de operações autônomas, nosso sistema leva em média menos de 10 minutos para completar sua primeira tarefa de pegar e soltar", reportam os pesquisadores.

Testes e Resultados

Os pesquisadores avaliaram o OK-Robot em dez lares, realizando 171 experimentos de pegar e soltar. Ele completou operações com sucesso 58% das vezes, demonstrando suas capacidades zero-shot—significando que os modelos não foram explicitamente treinados para esses ambientes. Ao refinar consultas de entrada, desobstruir espaços e minimizar objetos adversários, a taxa de sucesso pode ultrapassar 82%.

Apesar de seu potencial, o OK-Robot apresenta limitações. Ocasionalmente, ele desalinha comandos em linguagem natural com os objetos corretos, enfrenta dificuldades com certos tipos de apreensão e possui restrições de hardware. Além disso, o módulo de memória de objetos permanece estático após o escaneamento, impedindo que o robô se adapte a alterações na posição ou disponibilidade dos objetos.

Apesar desses desafios, o projeto OK-Robot oferece insights valiosos. Primeiramente, demonstra que os atuais VLMs de vocabulário aberto se destacam na identificação de diversos objetos do mundo real e na navegação até eles com aprendizado zero-shot. Adicionalmente, confirma que modelos robóticos especializados, pré-treinados em vastos conjuntos de dados, podem facilitar de maneira eficiente a apreensão de vocabulário aberto em novos ambientes. Por último, ressalta o potencial de combinar modelos pré-treinados para realizar tarefas zero-shot sem treinamento adicional, abrindo caminho para futuros avanços neste campo emergente.

Semron garante investimento de US$ 7,9 milhões para tecnologia avançada de chips de IA empacotados em 3D

10 Razões Principais para Priorizar a Segurança de Containers na Proteção da Cadeia de Suprimentos de Software

Most people like

Crumb

11.8K

Descubra nosso gerador de receitas com IA que cria pratos exclusivos adaptados aos ingredientes que você tem em casa. Liberte sua criatividade culinária e transforme sua despensa em uma cozinha gourmet com receitas personalizadas ao seu alcance!

Gerador de receitas de IA AI Recipe Assistant

Peppertype.ai

14.8K

Peppertype.ai é uma plataforma inovadora de marketing de conteúdo projetada para acelerar a criação de conteúdo e melhorar o retorno sobre investimento (RoI). Com recursos poderosos e ferramentas fáceis de usar, ela capacita as empresas a otimizar suas estratégias de conteúdo de forma eficaz.

marketing de conteúdo AI Product Description Generator

Song.do

5.5K

Liberte sua criatividade com um gerador de músicas por IA gratuito que transforma suas ideias musicais em melodias cativantes. Seja você um compositor em ascensão ou um músico experiente, esta ferramenta inovadora utiliza inteligência artificial avançada para ajudá-lo a compor canções originais em apenas minutos. Abrace o futuro da criação musical e explore possibilidades infinitas com uma plataforma fácil de usar, projetada para todos. Mergulhe hoje no mundo da produção musical impulsionada por IA!

Gerador de músicas por IA AI Lyrics Generator

Thetawise

395K

Descubra os benefícios da tutoria em matemática impulsionada por IA, uma abordagem inovadora projetada para aprimorar o aprendizado e a compreensão da matemática. Ao aproveitar tecnologias avançadas, esses sistemas inteligentes oferecem suporte personalizado, atendendo a estilos e ritmos de aprendizado individuais. Seja você um estudante com dificuldades em álgebra, geometria ou cálculo avançado, os tutores de matemática com IA podem transformar sua experiência educacional, tornando-a mais eficiente e eficaz. Abrace o futuro do aprendizado com soluções baseadas em IA para melhorar suas habilidades matemáticas!

Aulas de Matemática AI Education Assistant

Find AI tools in YBX