O Modelo Inovador de Controle de Robôs da DeepMind e Stanford Executa Tarefas a Partir de Instruções em Esboço

Avanços recentes em modelos de linguagem e visão melhoraram significativamente a capacidade de sistemas robóticos em seguir instruções derivadas de texto ou imagens. No entanto, esses métodos apresentam limitações.

Um novo estudo conduzido por pesquisadores da Universidade de Stanford e do Google DeepMind sugere o uso de croquis como instruções para robôs. Os croquis oferecem informações espaciais ricas que auxiliam os robôs na realização de tarefas, evitando a confusão que pode surgir com imagens realistas ou com a ambiguidade da linguagem natural.

Apresentando RT-Sketch

Os pesquisadores desenvolveram o RT-Sketch, um modelo que utiliza croquis para controlar robôs. Este modelo apresenta desempenho comparável a agentes condicionados por linguagem e imagens em condições padrão e supera-os em situações onde as instruções de linguagem e imagem são insuficientes.

Por que escolher croquis?

Embora a linguagem forneça um meio direto de transmitir objetivos, pode ser inconveniente para tarefas que exigem manipulações precisas, como arranjar objetos. As imagens retratam os objetivos desejados em detalhes, mas obter uma imagem de objetivo muitas vezes é impraticável. Além disso, imagens pré-gravadas podem conter detalhes excessivos, levando a um sobreajuste e à má generalização em novos ambientes.

“Inicialmente, idealizamos a possibilidade de permitir que robôs interpretassem manuais de montagem, como esquemas da IKEA, e realizassem as manipulações necessárias,” disse Priya Sundaresan, estudante de doutorado na Universidade de Stanford e autora principal do estudo. “A linguagem muitas vezes é muito ambígua para tais tarefas espaciais, e imagens pré-existentes podem não estar disponíveis.”

A equipe optou pelos croquis porque são mínimos, fáceis de produzir e informativos. Croquis comunicam arranjos espaciais de maneira eficaz, sem necessidade de detalhes em nível de pixel, permitindo que os modelos identifiquem objetos relevantes para a tarefa e melhorando suas capacidades de generalização.

“Consideramos que os croquis são um passo crucial em direção a formas mais convenientes e expressivas para os humanos instruírem robôs,” explicou Sundaresan.

O Modelo RT-Sketch

O RT-Sketch é construído sobre o Robotics Transformer 1 (RT-1), um modelo que traduz instruções de linguagem em comandos para robôs. Os pesquisadores adaptaram essa arquitetura para usar objetivos visuais, incluindo croquis e imagens.

Para treinar o RT-Sketch, utilizaram o conjunto de dados RT-1, que apresenta 80.000 gravações de tarefas teleoperadas em VR, como manipulação de objetos e operações em armários. Inicialmente, criaram croquis a partir dessas demonstrações, selecionando 500 exemplos e produzindo representações desenhadas à mão a partir dos quadros finais do vídeo. Esses croquis, juntamente com os quadros de vídeo correspondentes, foram usados para treinar uma rede adversarial generativa (GAN) que converte imagens em croquis.

Treinamento e Funcionalidade

A GAN gerou croquis para treinar o modelo RT-Sketch, que foi ainda mais ampliado com variações para imitar diferentes estilos de desenho à mão. Durante a operação, o modelo aceita uma imagem da cena e um croqui aproximado do arranjo desejado dos objetos, gerando uma sequência de comandos para o robô alcançar o objetivo especificado.

“O RT-Sketch é benéfico para tarefas espaciais onde instruções verbais detalhadas seriam complicadas ou quando uma imagem não está disponível,” disse Sundaresan.

Por exemplo, arrumar uma mesa pode levar a ambiguidades com instruções como “coloque os talheres ao lado do prato.” Isso pode resultar em múltiplas interações para esclarecer a compreensão do modelo. Em contraste, um simples croqui pode indicar claramente o arranjo desejado.

“O RT-Sketch também pode ajudar em tarefas como desempacotar itens ou arranjar móveis em um novo espaço, assim como em tarefas complexas e multi etapas, como dobrar roupas,” acrescentou Sundaresan.

Avaliação do RT-Sketch

Os pesquisadores testaram o RT-Sketch em diversos cenários, avaliando seis habilidades de manipulação, como mover objetos, derrubar latas e abrir gavetas. O modelo apresentou desempenho comparável a modelos existentes condicionados por imagem e linguagem para tarefas básicas de manipulação e superou modelos baseados em linguagem em cenários onde os objetivos eram difíceis de articular.

“Isso indica que os croquis atingem um equilíbrio eficaz; são concisos o suficiente para evitar confusão causada por distrações visuais, ao mesmo tempo em que preservam o contexto semântico e espacial necessário,” notou Sundaresan.

Direções Futuras

Olhando para o futuro, os pesquisadores planejam explorar aplicações mais amplas para croquis, potencialmente integrando-os a outras modalidades, como linguagem, imagens e gestos humanos. O DeepMind possui diversos modelos robóticos que utilizam abordagens multimodais, e os achados do RT-Sketch podem aprimorar esses sistemas. Eles também estão animados com o potencial diversificado dos croquis além da representação visual.

“Os croquis podem transmitir movimento com setas, representar subobjetivos com croquis parciais e indicar restrições com rabiscos, fornecendo informações valiosas para tarefas de manipulação que ainda temos a investigar,” concluiu Sundaresan.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles