Imperial College London e DeepMind Revelam Agentes Incorporados Capazes de Aprender com Poucos Dados

Agentes de IA incorporada capazes de interagir com o mundo físico possuem um potencial imenso para diversas aplicações. No entanto, um obstáculo principal persiste: a escassez de dados para treinamento. Para enfrentar esse desafio, pesquisadores do Imperial College London e do Google DeepMind introduziram o framework Agentes Aumentados por Difusão (DAAG). Essa abordagem inovadora aproveita as capacidades de grandes modelos de linguagem (LLMs), modelos de linguagem visual (VLMs) e modelos de difusão para aumentar a eficiência de aprendizado e as habilidades de transferência de aprendizado dos agentes incorporados.

Por que a Eficiência de Dados é Importante para Agentes Incorporados?

Avanços recentes em LLMs e VLMs despertaram otimismo sobre seu uso em robótica e IA incorporada. Embora esses modelos possam ser treinados em extensos conjuntos de dados de texto e imagem coletados da internet, sistemas de IA incorporada exigem aprendizado a partir de interações físicas. O mundo real apresenta desafios únicos para a coleta de dados em IA incorporada. Ambientes físicos são consideravelmente mais complexos e imprevisíveis do que reinos digitais. Além disso, robôs e outras IAs incorporadas dependem de sensores e atuadores físicos, que podem ser lentos, barulhentos e suscetíveis a falhas. Os pesquisadores afirmam que superar esses desafios está em otimizar o uso dos dados e experiências existentes de um agente. Eles afirmam: “Hipotetizamos que agentes incorporados podem alcançar maior eficiência de dados aproveitando experiências passadas para explorar de forma eficaz e transferir conhecimentos entre tarefas.”

O que é DAAG?

O framework Agentes Aumentados por Difusão (DAAG) foi projetado para permitir que agentes aprendam tarefas de forma mais eficaz ao utilizar experiências passadas e gerar dados sintéticos. Os pesquisadores buscam ajudar os agentes a definir e avaliar subobjetivos de forma autônoma, mesmo sem recompensas externas, enquanto reaproveitam suas experiências anteriores para acelerar o aprendizado de novas tarefas. O DAAG opera dentro de um Processo de Decisão de Markov (MDP). No início de cada episódio, o agente recebe instruções de tarefa, observa seu ambiente e toma ações para alcançar um estado que se alinha a essas instruções. Ele possui dois buffers de memória: um buffer específico da tarefa para experiências atuais e um “buffer offline vitalício” para todas as experiências passadas, independentemente de suas tarefas ou resultados.

O DAAG combina as forças de LLMs, VLMs e modelos de difusão para criar agentes capazes de raciocinar, analisar ambientes e aprender novos objetivos de forma eficiente, reaproveitando experiências passadas. O LLM atua como o controlador central, interpretando novas instruções de tarefa, dividindo-as em subobjetivos menores e coordenando com o VLM e o modelo de difusão para a realização dos objetivos.

Para maximizar a utilidade das experiências passadas, o DAAG utiliza um método chamado Aumento de Experiência Retrospectivo (HEA). O VLM processa observações visuais no buffer de experiências e as compara com subobjetivos desejados, aprimorando a memória do agente com observações relevantes. Se experiências relevantes estiverem ausentes, o modelo de difusão gera dados sintéticos para ajudar o agente a visualizar resultados potenciais, permitindo a exploração sem interação física direta. “Por meio do HEA, podemos aumentar sinteticamente o número de episódios bem-sucedidos armazenados nos buffers do agente, permitindo reutilização efetiva de dados e melhorando significativamente a eficiência, especialmente ao aprender múltiplas tarefas em sequência,” explicam os pesquisadores. Eles descrevem DAAG e HEA como um pipeline autônomo que opera independentemente da supervisão humana, aproveitando a consistência geométrica e temporal para gerar observações aumentadas confiáveis.

Quais são os Benefícios do DAAG?

Em suas avaliações em múltiplos benchmarks e ambientes simulados, os pesquisadores descobriram que o DAAG superou significativamente sistemas tradicionais de aprendizado por reforço em tarefas como navegação e manipulação de objetos. Notavelmente, agentes habilitados pelo DAAG alcançaram metas mesmo sem recompensas explícitas, atingindo objetivos mais rapidamente e exigindo menos interação com o ambiente em comparação com agentes não DAAG. O framework se destaca na reutilização de dados de tarefas anteriores, facilitando o aprendizado rápido de novos objetivos. A capacidade de transferir conhecimento entre tarefas é vital para criar agentes capazes de aprendizado contínuo e adaptação. A eficácia do DAAG em otimizar a transferência de aprendizado abre caminho para robôs e sistemas de IA incorporada mais resilientes e flexíveis. “Este trabalho sugere caminhos promissores para abordar a escassez de dados no aprendizado robótico e desenvolver agentes com capacidades mais amplas,” concluem os pesquisadores.

Most people like

Find AI tools in YBX