Como os LLMs Estão Pioneirando Uma Nova Era na Inovação em Robótica

Nos últimos meses, houve um aumento significativo de projetos que utilizam grandes modelos de linguagem (LLMs) para desenvolver aplicações robóticas inovadoras, antes consideradas impossíveis. O poder dos LLMs e modelos multimodais está permitindo que pesquisadores criem robôs capazes de processar comandos em linguagem natural e executar tarefas complexas que requerem raciocínio avançado. Esse crescente interesse na interseção entre LLMs e robótica revitalizou o cenário das startups robóticas, com várias empresas garantindo financiamentos substanciais e apresentando demonstrações impressionantes. Com avanços notáveis, estamos à beira de uma nova era na robótica.

Modelos de Linguagem para Percepção e Raciocínio

Tradicionalmente, a construção de sistemas robóticos exigia esforços de engenharia complexos para desenvolver módulos de planejamento e raciocínio, dificultando a criação de interfaces amigáveis para diversas formas de comando. A emergência dos LLMs e modelos de linguagem visual (VLMs) capacitou engenheiros de robótica a aprimorar sistemas existentes de maneiras inovadoras. Um projeto pioneiro nessa área foi o SayCan, desenvolvido pelo Google Research, que utilizou o conhecimento semântico de um LLM para ajudar robôs a raciocinar sobre tarefas e determinar sequências de ações apropriadas. “SayCan foi um dos artigos mais influentes em robótica,” disse o cientista de pesquisa em IA e robótica Chris Paxton. “Seu design modular permite a integração de diferentes componentes para criar sistemas com demonstrações convincentes.”

Após o SayCan, pesquisadores começaram a explorar a aplicação de modelos de linguagem e visão na robótica, resultando em progressos significativos. Alguns projetos utilizam LLMs e VLMs de uso geral, enquanto outros se concentram em adaptar modelos existentes para tarefas robóticas específicas. “Usar grandes modelos de linguagem e modelos de visão tornou aspectos como percepção e raciocínio significativamente mais acessíveis,” observou Paxton. “Isso tornou muitas tarefas robóticas mais realizáveis do que nunca.”

Combinando Capacidades Existentes

Uma grande limitação dos sistemas robóticos tradicionais está em seus mecanismos de controle. As equipes podem treinar robôs para habilidades individuais, como abrir portas ou manipular objetos, mas a combinação dessas habilidades para tarefas complexas pode ser desafiadora, resultando em sistemas rígidos que exigem instruções explícitas. LLMs e VLMs permitem que robôs interpretem instruções mal definidas e as mapeiem para sequências de tarefas específicas alinhadas às suas capacidades. Curiosamente, muitos modelos avançados conseguem isso sem treinamento extensivo. “Com grandes modelos de linguagem, posso conectar diferentes habilidades e raciocinar sobre suas aplicações,” explicou Paxton. “Modelos de linguagem visual mais recentes, como o GPT-4V, ilustram como esses sistemas podem colaborar efetivamente em diversas aplicações.”

Por exemplo, o GenEM, uma técnica criada pela Universidade de Toronto, Google DeepMind e Hoku Labs, utiliza o contexto social abrangente capturado em LLMs para gerar comportamentos expressivos em robôs. Aproveitando o GPT-4, o GenEM permite que robôs compreendam contextos—como acenar para reconhecer a presença de alguém—e executem ações pertinentes, baseadas em seus vastos dados de treinamento e suas capacidades de aprendizado em contexto. Outro exemplo é o OK-Robot, desenvolvido pela Meta e pela Universidade de Nova York, que combina VLMs com módulos de planejamento de movimento e manipulação de objetos para realizar tarefas de pegar e colocar em ambientes desconhecidos.

Algumas startups de robótica estão prosperando em meio a esses avanços. A Figure, uma empresa de robótica da Califórnia, recentemente arrecadou US$ 675 milhões para desenvolver robôs humanoides utilizando modelos de visão e linguagem. Seus robôs aproveitam os modelos da OpenAI para processar instruções e planejar ações estrategicamente. No entanto, enquanto LLMs e VLMs abordam desafios significativos, as equipes de robótica ainda precisam desenvolver sistemas para habilidades fundamentais, como agarrar objetos, navegar por obstáculos e manobrar em ambientes diversos. “Há um trabalho substancial ocorrendo no nível fundamental que esses modelos ainda não conseguem lidar,” disse Paxton. “Essa complexidade destaca a necessidade de dados, os quais muitas empresas estão agora trabalhando para gerar.”

Modelos Fundamentais Especializados

Outra abordagem promissora envolve a criação de modelos fundamentais especializados para robótica que aproveitam o vasto conhecimento contido em modelos pré-treinados, personalizando suas arquiteturas para tarefas robóticas. Um importante esforço nessa área é o RT-2 do Google, um modelo de ação de linguagem visual (VLA) que processa dados de percepção e instruções em linguagem para gerar comandos acionáveis para robôs. Recentemente, o Google DeepMind apresentou o RT-X-2, uma versão aprimorada do RT-2, capaz de se adaptar a várias morfologias de robôs enquanto realiza tarefas não incluídas em seu conjunto de dados de treinamento. Além disso, o RT-Sketch, uma colaboração entre DeepMind e a Universidade de Stanford, traduz esboços aproximados em planos de ação executáveis para robôs. “Esses modelos representam uma nova abordagem, funcionando como uma política expansiva capaz de lidar com múltiplas tarefas,” observou Paxton. “Essa é uma direção empolgante impulsionada pelo aprendizado de ponta a ponta, onde um robô pode derivar suas ações de um feed de câmera.”

Modelos fundamentais para robótica estão cada vez mais entrando no mercado comercial. A Covariant apresentou recentemente o RFM-1, um modelo transformer com 8 bilhões de parâmetros, treinado em entradas diversas, incluindo texto, imagens, vídeos e ações de robôs, visando criar um modelo fundamental versátil para várias aplicações robóticas. Enquanto isso, o Project GR00T, exibido na Nvidia GTC, busca capacitar robôs humanoides a processar entradas como texto, fala e vídeos, traduzindo-as em ações específicas.

O potencial total dos modelos de linguagem permanece amplamente inexplorado e continuará a impulsionar a pesquisa em robótica. À medida que os LLMs evoluem, podemos esperar inovações revolucionárias no campo da robótica.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles