Conheça a Alter3: O Robô Humanoide de Ponta Impulsionado por GPT-4

Pesquisadores da Universidade de Tóquio e da Alternative Machine desenvolveram um sistema de robô humanoide chamado Alter3, capaz de traduzir comandos em linguagem natural diretamente em ações robóticas. Aproveitando o conhecimento abrangente inserido em modelos de linguagem grandes (LLMs) como o GPT-4, o Alter3 pode realizar tarefas complexas, como tirar selfies ou simular ser um fantasma.

Essa inovação representa um avanço significativo na integração de modelos fundamentais com sistemas robóticos. Embora uma solução comercial escalável ainda esteja em desenvolvimento, os recentes progressos revitalizaram a pesquisa em robótica e prometeram resultados consideráveis.

Transformando Linguagem em Ações Robóticas

O Alter3 utiliza o GPT-4 como seu modelo central, processando instruções em linguagem natural que descrevem ações ou cenários para os quais o robô deve responder. O modelo emprega uma "estrutura agente" para elaborar uma série de etapas necessárias para alcançar o objetivo especificado. Inicialmente, ele atua como um planejador, determinando a sequência necessária para a tarefa desejada.

O Alter3 usa vários formatos de comandos do GPT-4 para analisar instruções e mapeá-las em comandos robóticos. Como o GPT-4 não possui treinamento específico nos comandos de programação do Alter3, os pesquisadores exploram seu aprendizado em contexto para adaptar a saída à API do robô. Isso envolve fornecer uma lista de comandos e exemplos práticos de uso, permitindo ao modelo traduzir cada etapa de ação em comandos API executáveis.

“Anteriormente, controlávamos manualmente todos os 43 eixos em uma ordem específica para replicar poses humanas ou simular ações como servir chá ou jogar xadrez”, observado pelos pesquisadores. “Com os LLMs, fomos libertados desse processo que consome muito trabalho.”

Incorporando Feedback Humano

Considerando que a linguagem pode ser imprecisa para detalhar movimentos físicos, as sequências de ações geradas pelo modelo podem não gerar sempre o comportamento robótico desejado. Para solucionar isso, os pesquisadores integraram um mecanismo de feedback que permite aos usuários refinarem os comandos, como “Levante seu braço um pouco mais.” Essas correções são processadas por outro agente GPT-4, que ajusta o código e retorna a sequência de ações revisada para o robô executar. Os planos e códigos aperfeiçoados são armazenados para aplicação futura.

A incorporação de feedback humano e memória eleva significativamente o desempenho do Alter3. Os pesquisadores avaliaram o robô em diversas tarefas, desde ações simples, como tirar selfies e beber chá, até imitações mais complexas, como agir como um fantasma ou uma cobra. O modelo também demonstrou habilidade em gerenciar cenários que exigem planejamento intricado.

“O treinamento do LLM abrange diversas representações linguísticas de movimentos. O GPT-4 traduz essas representações com precisão em comandos para o Alter3,” explica a equipe.

Com a vasta compreensão do GPT-4 sobre o comportamento humano, ele pode gerar planos de comportamento realistas para robôs humanoides. Em experimentos, a equipe também conseguiu dotar o Alter3 de expressões emocionais, como embaraço e alegria. “Mesmo em textos que não mencionam explicitamente os sinais emocionais, o LLM pode deduzir emoções apropriadas, refletindo-as nas respostas físicas do Alter3,” destacam os pesquisadores.

Avanços em Modelos de Robótica

A adoção de modelos fundamentais na pesquisa em robótica está ganhando cada vez mais impulso. Por exemplo, a Figure, avaliada em US$ 2,6 bilhões, utiliza modelos da OpenAI para interpretar comandos humanos e executar ações correspondentes no mundo real. Com o crescimento das capacidades multimodais em modelos fundamentais, sistemas robóticos estão prestes a aprimorar seu raciocínio ambiental e a tomada de decisões.

O Alter3 exemplifica uma tendência onde modelos básicos prontos para uso atuam como módulos de raciocínio e planejamento dentro dos sistemas de controle robótico. É importante ressaltar que ele não depende de uma versão afinada do GPT-4, permitindo que seu código seja aplicável a outros robôs humanoides.

Projetos como o RT-2-X e OpenVLA utilizam modelos fundamentais especializados projetados para gerar comandos robóticos diretamente. Embora esses modelos frequentemente resultem em desfechos mais estáveis e generalizem em diversas tarefas e ambientes, eles requerem maior expertise técnica e custos de desenvolvimento.

Entretanto, um aspecto crítico frequentemente negligenciado nessas iniciativas é o desafio fundamental de capacitar robôs a realizar tarefas básicas, incluindo agarrar objetos, manter o equilíbrio e navegar em ambientes. "Uma quantidade significativa de trabalho ocorre em um nível abaixo do que esses modelos abordam," comentou o cientista em IA e robótica Chris Paxton em uma entrevista recente. "Esse é um dos trabalhos desafiadores, em grande parte devido à falta de dados existentes."

Most people like

Find AI tools in YBX