Conheça a Alter3: O Robô Humanoide de Ponta Impulsionado por GPT-4

Home Notícias de IA Conheça a Alter3: O Robô Humanoide de Ponta Impulsionado por GPT-4

Pesquisadores da Universidade de Tóquio e da Alternative Machine desenvolveram um sistema de robô humanoide chamado Alter3, capaz de traduzir comandos em linguagem natural diretamente em ações robóticas. Aproveitando o conhecimento abrangente inserido em modelos de linguagem grandes (LLMs) como o GPT-4, o Alter3 pode realizar tarefas complexas, como tirar selfies ou simular ser um fantasma.

Essa inovação representa um avanço significativo na integração de modelos fundamentais com sistemas robóticos. Embora uma solução comercial escalável ainda esteja em desenvolvimento, os recentes progressos revitalizaram a pesquisa em robótica e prometeram resultados consideráveis.

Transformando Linguagem em Ações Robóticas

O Alter3 utiliza o GPT-4 como seu modelo central, processando instruções em linguagem natural que descrevem ações ou cenários para os quais o robô deve responder. O modelo emprega uma "estrutura agente" para elaborar uma série de etapas necessárias para alcançar o objetivo especificado. Inicialmente, ele atua como um planejador, determinando a sequência necessária para a tarefa desejada.

O Alter3 usa vários formatos de comandos do GPT-4 para analisar instruções e mapeá-las em comandos robóticos. Como o GPT-4 não possui treinamento específico nos comandos de programação do Alter3, os pesquisadores exploram seu aprendizado em contexto para adaptar a saída à API do robô. Isso envolve fornecer uma lista de comandos e exemplos práticos de uso, permitindo ao modelo traduzir cada etapa de ação em comandos API executáveis.

“Anteriormente, controlávamos manualmente todos os 43 eixos em uma ordem específica para replicar poses humanas ou simular ações como servir chá ou jogar xadrez”, observado pelos pesquisadores. “Com os LLMs, fomos libertados desse processo que consome muito trabalho.”

Incorporando Feedback Humano

Considerando que a linguagem pode ser imprecisa para detalhar movimentos físicos, as sequências de ações geradas pelo modelo podem não gerar sempre o comportamento robótico desejado. Para solucionar isso, os pesquisadores integraram um mecanismo de feedback que permite aos usuários refinarem os comandos, como “Levante seu braço um pouco mais.” Essas correções são processadas por outro agente GPT-4, que ajusta o código e retorna a sequência de ações revisada para o robô executar. Os planos e códigos aperfeiçoados são armazenados para aplicação futura.

A incorporação de feedback humano e memória eleva significativamente o desempenho do Alter3. Os pesquisadores avaliaram o robô em diversas tarefas, desde ações simples, como tirar selfies e beber chá, até imitações mais complexas, como agir como um fantasma ou uma cobra. O modelo também demonstrou habilidade em gerenciar cenários que exigem planejamento intricado.

“O treinamento do LLM abrange diversas representações linguísticas de movimentos. O GPT-4 traduz essas representações com precisão em comandos para o Alter3,” explica a equipe.

Com a vasta compreensão do GPT-4 sobre o comportamento humano, ele pode gerar planos de comportamento realistas para robôs humanoides. Em experimentos, a equipe também conseguiu dotar o Alter3 de expressões emocionais, como embaraço e alegria. “Mesmo em textos que não mencionam explicitamente os sinais emocionais, o LLM pode deduzir emoções apropriadas, refletindo-as nas respostas físicas do Alter3,” destacam os pesquisadores.

Avanços em Modelos de Robótica

A adoção de modelos fundamentais na pesquisa em robótica está ganhando cada vez mais impulso. Por exemplo, a Figure, avaliada em US$ 2,6 bilhões, utiliza modelos da OpenAI para interpretar comandos humanos e executar ações correspondentes no mundo real. Com o crescimento das capacidades multimodais em modelos fundamentais, sistemas robóticos estão prestes a aprimorar seu raciocínio ambiental e a tomada de decisões.

O Alter3 exemplifica uma tendência onde modelos básicos prontos para uso atuam como módulos de raciocínio e planejamento dentro dos sistemas de controle robótico. É importante ressaltar que ele não depende de uma versão afinada do GPT-4, permitindo que seu código seja aplicável a outros robôs humanoides.

Projetos como o RT-2-X e OpenVLA utilizam modelos fundamentais especializados projetados para gerar comandos robóticos diretamente. Embora esses modelos frequentemente resultem em desfechos mais estáveis e generalizem em diversas tarefas e ambientes, eles requerem maior expertise técnica e custos de desenvolvimento.

Entretanto, um aspecto crítico frequentemente negligenciado nessas iniciativas é o desafio fundamental de capacitar robôs a realizar tarefas básicas, incluindo agarrar objetos, manter o equilíbrio e navegar em ambientes. "Uma quantidade significativa de trabalho ocorre em um nível abaixo do que esses modelos abordam," comentou o cientista em IA e robótica Chris Paxton em uma entrevista recente. "Esse é um dos trabalhos desafiadores, em grande parte devido à falta de dados existentes."

Como a IA Adversarial Está Erodendo a Confiança em um Mundo de Deepfakes

Roblox Revela Novas Perspectivas sobre o Desenvolvimento de Sua Tecnologia de IA Generativa 4D

Most people like

SlidesGPT

537.9K

Revolucione sua experiência de apresentação com ferramentas impulsionadas por IA que permitem criar slides impressionantes em segundos. Diga adeus ao design cansativo e olá a apresentações sem esforço que capturam a atenção do seu público. Abrace o futuro da criação de apresentações com tecnologia que simplifica seu fluxo de trabalho e aprimora sua mensagem.

criação de apresentações AI Content Generator

SwiftERM

11.6K

No dinâmico mundo do e-commerce, destacar-se é essencial para o sucesso. Apresentamos o software de personalização impulsionado por IA, projetado para adaptar a experiência de compra às preferências individuais dos clientes. Ao aproveitar algoritmos avançados e insights de dados, essa solução SaaS melhora o engajamento do cliente, impulsiona conversões e fomenta a lealdade à marca. Descubra como a integração da individualização por IA pode revolucionar sua loja online e elevar seu desempenho em vendas.

Individualização de IA Other

SubEasy

37.9K

Transcrição e Tradução de Legendagem com Tecnologia de IA: Aprimore Seu Conteúdo com Tecnologia Avançada No cenário digital atual, a comunicação clara e acessível é vital. A transcrição e tradução de legendas com IA simplificam seu conteúdo em vídeo, tornando-o mais envolvente e inclusivo para audiências globais. Ao aproveitar o poder da inteligência artificial, você pode garantir legendas precisas e pontuais, alcançando diversos espectadores sem dificuldade. Descubra como a tecnologia de IA pode elevar sua produção de vídeo e ampliar seu alcance de público.

Transcrição com inteligência artificial Captions or Subtitle

JobSearch.Coach

6.9K

Aprimore seu currículo e carta de apresentação para causar o máximo impacto. Prepare-se para entrevistas de emprego praticando perguntas e recebendo feedback instantâneo.

Ferramentas de IA Resume Builder

Find AI tools in YBX