Como os Agentes de Fundação Podem Transformar a Tomada de Decisões com IA em Aplicações do Mundo Real

Modelos fundacionais transformaram a visão computacional e o processamento de linguagem natural, e pesquisadores agora propõem aplicar esses princípios para desenvolver agentes fundacionais. Esses sistemas de IA são projetados para tarefas de tomada de decisões abertas em ambientes físicos.

Em um recente artigo de posição, cientistas da Universidade da Academia Chinesa de Ciências definem agentes fundacionais como "agentes geralmente capazes em mundos físicos e virtuais". Eles sugerem que esses agentes podem levar a uma mudança de paradigma na tomada de decisões, semelhante à revolução promovida pelos grandes modelos de linguagem (LLMs) em tarefas linguísticas e centradas no conhecimento.

Os agentes fundacionais estão prontos para simplificar a criação de sistemas de IA versáteis que podem impactar significativamente campos atualmente dependentes de soluções de IA rígidas e específicas.

Os Desafios da Tomada de Decisões em IA

Abordagens tradicionais de tomada de decisão em IA apresentam limitações notáveis. Sistemas especialistas dependem do conhecimento humano formal e de regras criadas manualmente. Sistemas de aprendizado por reforço (RL) exigem treinamento extensivo do zero para cada nova tarefa, limitando suas capacidades de generalização. O aprendizado por imitação (IL) requer um esforço humano considerável para preparar exemplos de treinamento. Em contraste, LLMs e modelos de visão e linguagem (VLMs) podem se adaptar rapidamente a diferentes tarefas com mínima adaptação. Os pesquisadores acreditam que, com as modificações necessárias, esses métodos podem ser ajustados para desenvolver agentes fundacionais que atendam a tarefas de tomada de decisão abertas em reinos físicos e virtuais.

Características-Chave dos Agentes Fundacionais

Os pesquisadores destacam três características essenciais dos agentes fundacionais:

1. Representação Unificada: Uma representação combinada dos estados do ambiente, ações do agente e sinais de feedback.

2. Interface de Política Unificada: Aplicável a uma ampla gama de tarefas e domínios, incluindo robótica, jogos, saúde e mais.

3. Processo de Tomada de Decisão Racional: Decisões baseadas na compreensão do conhecimento do mundo, fatores ambientais e interações com outros agentes.

De acordo com os pesquisadores, “Essas características conferem aos agentes fundacionais percepção multimodal, adaptabilidade em tarefas e domínios, além da capacidade de generalizar com poucos ou nenhum exemplo”.

Um Roteiro para Agentes Fundacionais

O roteiro proposto para o desenvolvimento de agentes fundacionais inclui três componentes críticos:

1. Coleta de Dados: Dados interativos em grande escala devem ser reunidos a partir de ambientes da internet e do mundo real. Em cenários onde a aquisição de dados é desafiadora, simuladores e modelos generativos como o Sora podem ser utilizados.

2. Pré-treinamento em Dados Não Rotulados: Os agentes fundacionais devem ser pré-treinados usando dados não rotulados para desenvolver um conhecimento útil em tomada de decisão. Isso prepara os modelos para ajustes em conjuntos de dados menores e específicos, permitindo uma adaptação mais rápida a novas tarefas.

3. Alinhamento com LLMs: Os agentes fundacionais devem ser integrados com grandes modelos de linguagem para incorporar conhecimento do mundo e valores humanos em seus processos de tomada de decisão.

Desafios e Oportunidades para Agentes Fundacionais

O desenvolvimento de agentes fundacionais apresenta desafios únicos não encontrados em modelos de linguagem e visão. Os detalhes do mundo físico envolvem informações de baixo nível, em vez de abstrações de alto nível, complicando a criação de representações unificadas para variáveis de decisão. Além disso, as variações substanciais entre os cenários de tomada de decisão dificultam o desenvolvimento de uma interface de política coesa. Embora um modelo fundacional unificado possa englobar todas as modalidades e ambientes, isso também pode introduzir complexidade, impactando a interpretabilidade.

Os agentes fundacionais devem se envolver ativamente em processos dinâmicos de tomada de decisões, uma mudança em relação aos papéis predominantemente focados em conteúdo dos modelos de linguagem e visão. Pesquisadores propõem diversas vias para conectar os modelos fundacionais existentes com agentes capazes de navegar em tarefas e ambientes em evolução.

Avanços significativos estão em andamento na robótica, onde sistemas de controle e modelos fundacionais convergem para criar sistemas adaptáveis que podem generalizar em tarefas não encontradas. Esses sistemas utilizam o extenso conhecimento de senso comum dos LLMs e VLMs para tomar decisões informadas em situações desconhecidas.

Outra área vital de exploração é a condução autônoma, onde os pesquisadores investigam como grandes modelos de linguagem podem aprimorar sistemas de condução, incorporando conhecimento de senso comum e capacidades cognitivas humanas. Outros campos, incluindo saúde e pesquisa científica, também podem se beneficiar dos agentes fundacionais que colaboram com especialistas humanos.

“Agentes fundacionais têm o potencial de transformar processos de tomada de decisão, assim como os modelos fundacionais impactaram a linguagem e a visão”, afirmam os pesquisadores. “Sua percepção avançada, adaptabilidade e habilidades de raciocínio não apenas abordam as limitações do RL convencional, mas também desbloqueiam as capacidades plenas dos agentes fundacionais em aplicações do mundo real.”

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles