Stanford e Meta Avançam na Criação de IA Semelhante à Humana com o Inovador Modelo de Interação 'CHOIS'

Pesquisadores da Universidade de Stanford e do laboratório Facebook AI Research (FAIR) da Meta apresentaram um sistema de inteligência artificial inovador, capaz de gerar movimentos realistas e sincronizados entre humanos virtuais e objetos, utilizando apenas descrições em texto. O sistema, denominado CHOIS (Controllable Human-Object Interaction Synthesis), utiliza técnicas avançadas de modelos de difusão condicional para facilitar interações fluidas. Por exemplo, ele pode interpretar e animar instruções como “levante a mesa acima da cabeça, caminhe e coloque a mesa no chão”.

A pesquisa, publicada no arXiv, sugere um futuro onde seres virtuais conseguem interpretar e agir com comandos de linguagem de forma tão fluida quanto humanos. “Gerar interações contínuas entre humanos e objetos a partir de descrições em linguagem em cenas 3D apresenta vários desafios”, afirmaram os pesquisadores. Eles priorizaram a criação de movimentos realistas, com mãos humanas interagindo com objetos, e movimentos dos objetos em resposta às ações humanas.

Como o CHOIS Funciona

O CHOIS se destaca na criação de interações entre humanos e objetos em um espaço 3D. No seu núcleo está um modelo de difusão condicional, uma estrutura gerativa capaz de simular sequências de movimento detalhadas. Dada uma posição inicial dos humanos e objetos, juntamente com uma descrição em linguagem da ação desejada, o CHOIS gera uma sequência de movimentos que realiza a tarefa. Por exemplo, se instruído a mover uma lâmpada mais perto de um sofá, o CHOIS pode criar uma animação realista de um avatar humano levantando a lâmpada e posicionando-a ao lado do sofá.

O que diferencia o CHOIS é a incorporação de pontos de referência escassos e entradas de linguagem para guiar as animações. Esses pontos servem como marcadores para pontos-chave no movimento de um objeto, garantindo que a animação não seja apenas realista, mas também esteja alinhada com o objetivo geral descrito na entrada de linguagem. Além disso, o CHOIS integra a compreensão da linguagem com a simulação física de forma mais eficaz do que modelos tradicionais, que frequentemente têm dificuldades em correlacionar a linguagem com ações espaciais e físicas durante interações prolongadas. O CHOIS interpreta a intenção e o estilo por trás das descrições em linguagem e as traduz em uma série de movimentos físicos, respeitando as limitações do corpo humano e dos objetos envolvidos.

Esse sistema assegura uma representação precisa dos pontos de contato, como as mãos tocando objetos, e alinha o movimento do objeto com as forças exercidas pelo avatar humano. Utilizando funções de perda especializadas e termos de orientação durante as fases de treinamento e geração, o CHOIS reforça essas restrições físicas, marcando um avanço significativo na capacidade da IA de entender e interagir com o mundo físico como os humanos.

Implicações para Gráficos Computacionais, IA e Robótica

As implicações do sistema CHOIS para gráficos computacionais são substanciais, especialmente em animação e realidade virtual. Ao permitir que a IA interprete comandos em linguagem natural para interações realistas entre humanos e objetos, o CHOIS pode simplificar significativamente o processo de animação, reduzindo o tempo e o esforço tradicionalmente necessários para a criação de cenas complexas. Animadores poderiam aproveitar essa tecnologia para automatizar sequências que geralmente exigem animação meticulosa por keyframes. Na realidade virtual, o CHOIS poderia possibilitar experiências mais imersivas, onde os usuários podem direcionar personagens virtuais por meio da linguagem natural e observar a execução realista de tarefas, transformando interações anteriormente roteirizadas em ambientes dinâmicos e responsivos.

Na IA e na robótica, o CHOIS representa um grande avanço rumo ao desenvolvimento de sistemas autônomos e conscientes do contexto. Em vez de depender de rotinas pré-programadas, os robôs poderiam usar o CHOIS para entender e executar tarefas descritas em linguagem humana. Isso poderia revolucionar robôs de serviço em setores como saúde, hospitalidade e ambientes domésticos, aprimorando sua capacidade de interpretar e executar diversas tarefas em espaços físicos.

Além disso, a capacidade de processar linguagem e entrada visual simultaneamente permite que a IA alcance um nível de compreensão situacional e contextual que era predominantemente humano. Esse avanço pode levar a sistemas de IA que funcionem como assistentes mais capazes em tarefas complexas, compreendendo não apenas o "o quê", mas também o "como" das instruções humanas e se adaptando a novos desafios com uma flexibilidade sem precedentes.

Resultados Promissores e Perspectivas Futuras

Em resumo, a pesquisa colaborativa entre Stanford e Meta marca um progresso significativo na interseção entre visão computacional, processamento de linguagem natural (NLP) e robótica. Os pesquisadores veem esse trabalho como um passo crucial para o desenvolvimento de sistemas de IA sofisticados capazes de simular comportamentos humanos contínuos em ambientes 3D variados. Além disso, abre caminho para novas explorações na síntese de interações humanas e de objetos a partir de cenas 3D e entradas de linguagem, podendo levar a tecnologias de IA ainda mais avançadas no futuro.

Most people like

Find AI tools in YBX