A startup de robótica 1X Technologies apresentou um modelo generativo inovador projetado para aumentar a eficiência do treinamento de sistemas robóticos em ambientes simulados. Conforme destacado em seu último post no blog, esse modelo aborda um desafio crucial na robótica: a criação de "modelos de mundo" que preveem com precisão como os ambientes mudam em resposta às ações de um robô.
Treinar robôs diretamente em espaços físicos envolve custos e riscos elevados, levando os especialistas em robótica a dependerem de ambientes simulados para o desenvolvimento de modelos antes da implementação no mundo real. No entanto, discrepâncias entre simulações e configurações físicas reais podem representar desafios significativos.
"Os robóticos frequentemente criam cenas projetadas manualmente que funcionam como 'gêmeos digitais' do mundo real, utilizando simuladores de corpo rígido como MuJoCo, Bullet e Isaac para simulação de dinâmica," explicou Eric Jang, VP de IA da 1X Technologies. "Infelizmente, esses gêmeos digitais podem conter imprecisões em física e geometria, resultando na 'lacuna sim2real'. Por exemplo, um modelo de porta baixado online pode não replicar a mesma rigidez na mola da maçaneta que a porta utilizada durante os testes."
Modelos de Mundo Generativos
Para superar essa lacuna, o modelo inovador da 1X aprende a simular dinâmicas do mundo real treinando com dados brutos de sensores coletados diretamente dos robôs. Ele analisa milhares de horas de dados de vídeo e atuadores de seus robôs humanoides, que realizam diversas tarefas de manipulação móvel em ambientes domésticos e de escritório.
“Reunimos dados de nossos escritórios 1X, com o apoio de uma equipe de Operadores Android para anotação e filtragem,” afirmou Jang. "Ao construir um simulador diretamente a partir de interações do mundo real, conseguimos atingir dinâmicas que se alinham mais de perto com cenários reais à medida que o conjunto de dados de interação se expande."
O modelo de mundo desenvolvido se destaca na simulação de interações com objetos. Vídeos compartilhados pela empresa demonstram a capacidade do modelo de prever com precisão cenários, como um robô pegando caixas e interagindo com diversos objetos – variando de corpos rígidos a itens deformáveis como cortinas e roupas – enquanto também considera dinâmicas complexas, como evitar obstáculos e manter distâncias seguras de pessoas.
Desafios dos Modelos Generativos
Apesar dos avanços, o modelo enfrenta desafios contínuos devido às mudanças ambientais. Assim como qualquer simulador, ele requer atualizações à medida que o ambiente operacional evolui. No entanto, os pesquisadores acreditam que a abordagem de aprendizado do modelo facilita atualizações mais simples.
"O modelo generativo pode enfrentar uma lacuna sim2real se seus dados de treinamento estiverem desatualizados," reconheceu Jang. "O objetivo é criar um simulador aprendido que possa ser continuamente refinado com novos dados do mundo real, sem a necessidade de ajustes manuais."
A abordagem da 1X se inspira em avanços como o OpenAI Sora e o Runway, que demonstram que modelos generativos podem ser desenvolvidos para manter a consistência ao longo do tempo com dados de treinamento adequados.
Enquanto outros modelos geralmente geram vídeos a partir de entradas de texto, o foco da 1X em sistemas generativos que respondem dinamicamente durante a fase de geração a coloca na vanguarda da inovação. Por exemplo, pesquisadores do Google têm utilizado técnicas semelhantes para treinar modelos generativos capazes de simular ambientes interativos, como o jogo DOOM.
Apesar desses avanços, ainda existem desafios. A ausência de um simulador de mundo claramente definido pode, às vezes, resultar em cenários irreais; por exemplo, o modelo pode prever incorretamente que um objeto suspenso não cairá ou que um objeto pode desaparecer entre frames. Abordar essas questões exigirá esforço contínuo.
Uma solução potencial reside na acumulação contínua de mais dados para aprimorar o treinamento do modelo. "Os recentes avanços na modelagem de vídeo generativo têm sido notáveis, e os resultados do OpenAI Sora ilustram que o aumento de dados e poder computacional pode levar a melhorias significativas," destacou Jang.
A 1X está envolvida ativamente com a comunidade nessa iniciativa, lançando seus modelos e pesos, além de planejar competições que ofereçam prêmios em dinheiro a participantes que contribuírem para o refinamento dos modelos.
"Estamos explorando vários métodos para modelagem de mundos e geração de vídeos," concluiu Jang, enfatizando o compromisso da empresa com a inovação contínua.