Os humanos frequentemente utilizam comportamentos expressivos para transmitir objetivos e intenções. Por exemplo, acenamos com a cabeça para cumprimentar um colega, balançamos a cabeça em sinal de desaprovação ou dizemos "com licença" para atravessar uma multidão. Para facilitar interações mais fluidas, os robôs móveis também precisam exibir comportamentos expressivos semelhantes. No entanto, esse desafio ainda é significativo na robótica, e as soluções existentes muitas vezes carecem de flexibilidade e adaptabilidade.
Em um estudo inovador, pesquisadores da Universidade de Toronto, Google DeepMind e Hoku Labs apresentam o GenEM, uma abordagem nova que aproveita o extenso contexto social incorporado em grandes modelos de linguagem (LLMs) para permitir que os robôs realizem comportamentos expressivos. Utilizando diversas técnicas de prompting, o GenEM permite que os robôs interpretem seu ambiente e reproduzam expressões semelhantes às humanas de forma eficaz.
Comportamentos Expressivos na Robótica
Tradicionalmente, a criação de comportamentos expressivos em robôs dependia de sistemas baseados em regras ou templates, exigindo considerável input manual para cada robô e ambiente. Essa rigidez significa que quaisquer mudanças ou adaptações requerem reprogramação extensa. Abordagens mais modernas têm se inclinado para métodos baseados em dados que oferecem maior flexibilidade, mas frequentemente exigem conjuntos de dados especializados adaptados às interações de cada robô.
O GenEM transforma essa abordagem ao aproveitar o rico conhecimento contido nos LLMs para gerar comportamentos expressivos dinamicamente, eliminando a necessidade de treinamento tradicional de modelos ou conjuntos de regras complexas. Por exemplo, os LLMs podem reconhecer a importância do contato visual ou acenos de cabeça em diferentes contextos sociais.
"Nossa principal descoberta é utilizar o rico contexto social dos LLMs para criar comportamentos expressivos adaptáveis e componíveis”, explicam os pesquisadores.
Movimento Expressivo Generativo (GenEM)
O GenEM utiliza uma sequência de agentes do LLM que geram autonomamente comportamentos expressivos para robôs com base em comandos de linguagem natural. Cada agente contribui raciocinando sobre contextos sociais e traduzindo esses comportamentos em chamadas de API acionáveis para o robô.
“O GenEM pode produzir comportamentos multimodais utilizando as capacidades do robô—como fala e movimento corporal—para expressar claramente a intenção,” observam os pesquisadores. "Uma das características marcantes do GenEM é sua capacidade de se adaptar ao feedback humano em tempo real, permitindo melhorias iterativas e a geração de novos comportamentos expressivos."
O fluxo de trabalho do GenEM começa com uma instrução em linguagem natural, seja especificando uma ação expressiva como “Acene com a cabeça” ou estabelecendo um cenário social, como “Uma pessoa passando acena para você.” Inicialmente, um LLM emprega raciocínio em cadeia para delinear a resposta potencial de um humano. Outro agente do LLM, então, traduz isso em um guia passo a passo refletindo as funções disponíveis do robô, orientando ações como inclinação da cabeça ou ativação de padrões de luz específicos.
Em seguida, as instruções processuais são convertidas em código executável, utilizando os comandos da API do robô. Feedback humano opcional pode ser incorporado para refinar ainda mais o comportamento, tudo isso sem a necessidade de treinar os LLMs—apenas ajustes de engenharia de prompt são requeridos com base nas especificações do robô.
Testando o GenEM
Os pesquisadores avaliaram os comportamentos gerados por duas variações do GenEM—uma incorporando feedback do usuário e a outra não—em comparação com comportamentos roteirizados elaborados por um animador profissional. Utilizando o GPT-4 da OpenAI para raciocínio contextual e geração de comportamentos expressivos, eles analisaram as respostas dos usuários sobre os resultados. Os resultados indicaram que os usuários consideraram, em geral, os comportamentos gerados pelo GenEM igualmente compreensíveis do que os de um animador profissional. Além disso, o método modular e de múltiplos passos do GenEM superou amplamente a abordagem anterior de um único LLM.
Crucialmente, o design baseado em prompting do GenEM é adaptável a qualquer tipo de robô, sem necessidade de conjuntos de dados especializados para treinamento. Ele utiliza efetivamente o raciocínio dos LLMs para criar comportamentos expressivos complexos a partir de ações robóticas simples.
“Nossa estrutura gera rapidamente comportamentos expressivos por meio de aprendizado contextual e prompting com poucos exemplos, reduzindo significativamente a necessidade de conjuntos de dados curados ou elaboração de regras complexas como observado em métodos anteriores,” concluem os pesquisadores.
Embora ainda esteja em estágio inicial, o GenEM foi principalmente testado em cenários interativos únicos e espaços de ação limitados. Há potencial para exploração em robôs com ações primitivas mais diversas, com os grandes modelos de linguagem prometendo aprimorar ainda mais essas capacidades.
“Acreditamos que nossa abordagem oferece uma estrutura flexível para gerar movimento expressivo adaptável e componível, aproveitando o poder dos grandes modelos de linguagem,” concluem os pesquisadores.