O GenEM da DeepMind Utiliza LLMs para Criar Comportamentos Expressivos em Robôs

Home Notícias de IA O GenEM da DeepMind Utiliza LLMs para Criar Comportamentos Expressivos em Robôs

Updated on fevereiro 5 2024

Os humanos frequentemente utilizam comportamentos expressivos para transmitir objetivos e intenções. Por exemplo, acenamos com a cabeça para cumprimentar um colega, balançamos a cabeça em sinal de desaprovação ou dizemos "com licença" para atravessar uma multidão. Para facilitar interações mais fluidas, os robôs móveis também precisam exibir comportamentos expressivos semelhantes. No entanto, esse desafio ainda é significativo na robótica, e as soluções existentes muitas vezes carecem de flexibilidade e adaptabilidade.

Em um estudo inovador, pesquisadores da Universidade de Toronto, Google DeepMind e Hoku Labs apresentam o GenEM, uma abordagem nova que aproveita o extenso contexto social incorporado em grandes modelos de linguagem (LLMs) para permitir que os robôs realizem comportamentos expressivos. Utilizando diversas técnicas de prompting, o GenEM permite que os robôs interpretem seu ambiente e reproduzam expressões semelhantes às humanas de forma eficaz.

Comportamentos Expressivos na Robótica

Tradicionalmente, a criação de comportamentos expressivos em robôs dependia de sistemas baseados em regras ou templates, exigindo considerável input manual para cada robô e ambiente. Essa rigidez significa que quaisquer mudanças ou adaptações requerem reprogramação extensa. Abordagens mais modernas têm se inclinado para métodos baseados em dados que oferecem maior flexibilidade, mas frequentemente exigem conjuntos de dados especializados adaptados às interações de cada robô.

O GenEM transforma essa abordagem ao aproveitar o rico conhecimento contido nos LLMs para gerar comportamentos expressivos dinamicamente, eliminando a necessidade de treinamento tradicional de modelos ou conjuntos de regras complexas. Por exemplo, os LLMs podem reconhecer a importância do contato visual ou acenos de cabeça em diferentes contextos sociais.

"Nossa principal descoberta é utilizar o rico contexto social dos LLMs para criar comportamentos expressivos adaptáveis e componíveis”, explicam os pesquisadores.

Movimento Expressivo Generativo (GenEM)

O GenEM utiliza uma sequência de agentes do LLM que geram autonomamente comportamentos expressivos para robôs com base em comandos de linguagem natural. Cada agente contribui raciocinando sobre contextos sociais e traduzindo esses comportamentos em chamadas de API acionáveis para o robô.

“O GenEM pode produzir comportamentos multimodais utilizando as capacidades do robô—como fala e movimento corporal—para expressar claramente a intenção,” observam os pesquisadores. "Uma das características marcantes do GenEM é sua capacidade de se adaptar ao feedback humano em tempo real, permitindo melhorias iterativas e a geração de novos comportamentos expressivos."

O fluxo de trabalho do GenEM começa com uma instrução em linguagem natural, seja especificando uma ação expressiva como “Acene com a cabeça” ou estabelecendo um cenário social, como “Uma pessoa passando acena para você.” Inicialmente, um LLM emprega raciocínio em cadeia para delinear a resposta potencial de um humano. Outro agente do LLM, então, traduz isso em um guia passo a passo refletindo as funções disponíveis do robô, orientando ações como inclinação da cabeça ou ativação de padrões de luz específicos.

Em seguida, as instruções processuais são convertidas em código executável, utilizando os comandos da API do robô. Feedback humano opcional pode ser incorporado para refinar ainda mais o comportamento, tudo isso sem a necessidade de treinar os LLMs—apenas ajustes de engenharia de prompt são requeridos com base nas especificações do robô.

Testando o GenEM

Os pesquisadores avaliaram os comportamentos gerados por duas variações do GenEM—uma incorporando feedback do usuário e a outra não—em comparação com comportamentos roteirizados elaborados por um animador profissional. Utilizando o GPT-4 da OpenAI para raciocínio contextual e geração de comportamentos expressivos, eles analisaram as respostas dos usuários sobre os resultados. Os resultados indicaram que os usuários consideraram, em geral, os comportamentos gerados pelo GenEM igualmente compreensíveis do que os de um animador profissional. Além disso, o método modular e de múltiplos passos do GenEM superou amplamente a abordagem anterior de um único LLM.

Crucialmente, o design baseado em prompting do GenEM é adaptável a qualquer tipo de robô, sem necessidade de conjuntos de dados especializados para treinamento. Ele utiliza efetivamente o raciocínio dos LLMs para criar comportamentos expressivos complexos a partir de ações robóticas simples.

“Nossa estrutura gera rapidamente comportamentos expressivos por meio de aprendizado contextual e prompting com poucos exemplos, reduzindo significativamente a necessidade de conjuntos de dados curados ou elaboração de regras complexas como observado em métodos anteriores,” concluem os pesquisadores.

Embora ainda esteja em estágio inicial, o GenEM foi principalmente testado em cenários interativos únicos e espaços de ação limitados. Há potencial para exploração em robôs com ações primitivas mais diversas, com os grandes modelos de linguagem prometendo aprimorar ainda mais essas capacidades.

“Acreditamos que nossa abordagem oferece uma estrutura flexível para gerar movimento expressivo adaptável e componível, aproveitando o poder dos grandes modelos de linguagem,” concluem os pesquisadores.

AMD Apresenta a Arquitetura Embedded+, Revolucionando o Hardware de IA para Edge

A Visão da Menlo Ventures: Moldando o Futuro da Segurança em IA

Most people like

EarnBetter

623.8K

Desbloqueie seu potencial profissional com nosso assistente de busca de empregos gratuito. Esta ferramenta inovadora otimiza sua procura por vagas, oferecendo recomendações personalizadas, sugestões de currículo adaptadas e dicas para entrevistas. Se você está buscando seu primeiro emprego ou fazendo uma transição de carreira, nosso assistente de IA foi projetado para aprimorar sua experiência de busca e conectar você a oportunidades que se alinham às suas habilidades e aspirações. Comece a potencializar sua busca de emprego hoje!

Assistente de busca de emprego com IA Resume Builder

Lumen5

767.9K

O Lumen5 é uma poderosa plataforma impulsionada por IA, projetada para ajudar qualquer pessoa a criar vídeos cativantes de forma fácil e rápida.

criador de vídeos AI Video Editor

ContextQA

25.9K

Otimize Seu Processo de Relatórios de Testes Manuais para Melhorar a Qualidade do Software Descubra como a automação dos relatórios de testes manuais pode aumentar significativamente a qualidade do seu software. Ao eliminar tarefas tediosas e aumentar a eficiência, você poderá se concentrar mais no desenvolvimento de aplicações robustas e na entrega de experiências superiores aos usuários.

IA Other

TXYZ.AI

504.5K

Apresentamos uma plataforma de IA inovadora, projetada para transformar e otimizar seu processo de pesquisa. Experimente uma eficiência e precisão incomparáveis enquanto utiliza o poder da inteligência artificial para aprimorar suas capacidades de pesquisa. Descubra como nossa tecnologia inovadora pode apoiar sua busca por conhecimento, tornando a coleta de informações mais rápida e eficaz do que nunca.

Pesquisa com inteligência artificial Research Tool

Find AI tools in YBX