Aprendizado por Reforço Assistido por Humanos: Uma Nova Abordagem para Corrigir Erros em Sistemas de IA

Cientistas da Universidade da Califórnia, Berkeley, apresentaram uma técnica inovadora de aprendizado de máquina chamada "aprendizado por reforço via feedback de intervenção" (RLIF). Essa abordagem revolucionária simplifica o treinamento de sistemas de IA em ambientes complexos.

O RLIF combina aprendizado por reforço com aprendizado por imitação interativo, métodos essenciais para o treinamento de inteligência artificial. É especialmente útil em cenários onde os sinais de recompensa são escassos e o feedback humano é impreciso, um desafio comum no treinamento de robôs.

Entendendo as Técnicas: Aprendizado por Reforço e Aprendizado por Imitação

O aprendizado por reforço se destaca em ambientes com funções de recompensa claras, sendo eficaz para controle ótimo, jogos e alinhamento de grandes modelos de linguagem (LLMs) às preferências humanas. No entanto, encontra dificuldades em robótica, onde objetivos complexos muitas vezes carecem de sinais de recompensa explícitos.

Nesses casos, os engenheiros recorrem ao aprendizado por imitação, um subconjunto do aprendizado supervisionado que dispensa sinais de recompensa, treinando modelos com base em demonstrações humanas. Por exemplo, um humano pode guiar um braço robótico para manipular um objeto, fornecendo um exemplo visual para a IA reproduzir. O agente considera essas demonstrações como dados de treinamento.

Apesar de seus benefícios, o aprendizado por imitação enfrenta desafios, especialmente o “problema de desvio de distribuição”. Isso ocorre quando os agentes encontram cenários fora de seus exemplos de treinamento, resultando em quedas de desempenho. O aprendizado por imitação interativo aborda isso, permitindo que especialistas forneçam feedback em tempo real, corrigindo o agente durante suas ações quando este se desvia do caminho desejado. No entanto, esse método frequentemente depende de intervenções quase ótimas, que nem sempre são viáveis, especialmente em robótica, onde a precisão humana pode variar.

Unindo Abordagens: Aprendizado por Reforço e Aprendizado por Imitação

Os pesquisadores de U.C. Berkeley propõem um modelo híbrido que aproveita as forças do aprendizado por reforço e do aprendizado por imitação interativo. O RLIF baseia-se na ideia de que reconhecer erros é geralmente mais fácil do que realizar correções perfeitas.

Em tarefas complexas como direção autônoma, por exemplo, uma intervenção (como frear bruscamente) sinaliza uma divergência, mas não oferece um modelo de resposta ideal. O agente de RL deve focar em evitar a circunstância que provocou a intervenção, em vez de simplesmente imitar a ação.

“A decisão de intervir durante um episódio de imitação interativa pode fornecer um sinal de recompensa para o aprendizado por reforço”, afirmam os pesquisadores. Isso permite que métodos de RL operem sob pressupostos semelhantes, mas mais flexíveis do que o aprendizado por imitação interativa, utilizando intervenções humanas sem assumir que são ótimas.

O RLIF treina agentes com uma combinação de demonstrações e intervenções interativas, considerando essas intervenções como indicadores de potenciais erros, em vez de guias definitivos para ações ideais.

“Esperamos que os especialistas intervenham com mais frequência quando a política treinada toma ações subótimas”, destacaram os pesquisadores, enfatizando que as intervenções servem como sinais valiosos para modificar o comportamento da IA.

Ao abordar as limitações tanto do aprendizado por reforço tradicional quanto do aprendizado por imitação interativa—como a necessidade de uma função exata de recompensa e intervenções ótimas—o RLIF se mostra mais prático para ambientes complexos.

“Os especialistas podem achar mais fácil identificar estados indesejáveis do que agir de forma consistente de maneira ótima nessas situações”, acrescentaram os pesquisadores.

Testando o RLIF

A equipe da U.C. Berkeley avaliou o RLIF em comparação com o DAgger, um proeminente algoritmo de aprendizado por imitação interativa. Em ambientes simulados, o RLIF superou as principais variantes do DAgger por uma média de duas a três vezes, com essa diferença aumentando para cinco vezes quando as intervenções dos especialistas eram subótimas.

Testes no mundo real, envolvendo desafios robóticos como manipulação de objetos e dobradura de tecidos, validaram ainda mais a robustez e aplicabilidade do RLIF em situações práticas.

Embora o RLIF apresente alguns desafios—como altas demandas de dados e complexidades na implementação em tempo real—ele possui um grande potencial para o treinamento de sistemas robóticos avançados em diversas aplicações, tornando-se uma ferramenta transformadora no campo da IA.

Most people like

Find AI tools in YBX