Aprendizado por Reforço Assistido por Humanos: Uma Nova Abordagem para Corrigir Erros em Sistemas de IA

Home Notícias de IA Aprendizado por Reforço Assistido por Humanos: Uma Nova Abordagem para Corrigir Erros em Sistemas de IA

Updated on dezembro 5 2023

Cientistas da Universidade da Califórnia, Berkeley, apresentaram uma técnica inovadora de aprendizado de máquina chamada "aprendizado por reforço via feedback de intervenção" (RLIF). Essa abordagem revolucionária simplifica o treinamento de sistemas de IA em ambientes complexos.

O RLIF combina aprendizado por reforço com aprendizado por imitação interativo, métodos essenciais para o treinamento de inteligência artificial. É especialmente útil em cenários onde os sinais de recompensa são escassos e o feedback humano é impreciso, um desafio comum no treinamento de robôs.

Entendendo as Técnicas: Aprendizado por Reforço e Aprendizado por Imitação

O aprendizado por reforço se destaca em ambientes com funções de recompensa claras, sendo eficaz para controle ótimo, jogos e alinhamento de grandes modelos de linguagem (LLMs) às preferências humanas. No entanto, encontra dificuldades em robótica, onde objetivos complexos muitas vezes carecem de sinais de recompensa explícitos.

Nesses casos, os engenheiros recorrem ao aprendizado por imitação, um subconjunto do aprendizado supervisionado que dispensa sinais de recompensa, treinando modelos com base em demonstrações humanas. Por exemplo, um humano pode guiar um braço robótico para manipular um objeto, fornecendo um exemplo visual para a IA reproduzir. O agente considera essas demonstrações como dados de treinamento.

Apesar de seus benefícios, o aprendizado por imitação enfrenta desafios, especialmente o “problema de desvio de distribuição”. Isso ocorre quando os agentes encontram cenários fora de seus exemplos de treinamento, resultando em quedas de desempenho. O aprendizado por imitação interativo aborda isso, permitindo que especialistas forneçam feedback em tempo real, corrigindo o agente durante suas ações quando este se desvia do caminho desejado. No entanto, esse método frequentemente depende de intervenções quase ótimas, que nem sempre são viáveis, especialmente em robótica, onde a precisão humana pode variar.

Unindo Abordagens: Aprendizado por Reforço e Aprendizado por Imitação

Os pesquisadores de U.C. Berkeley propõem um modelo híbrido que aproveita as forças do aprendizado por reforço e do aprendizado por imitação interativo. O RLIF baseia-se na ideia de que reconhecer erros é geralmente mais fácil do que realizar correções perfeitas.

Em tarefas complexas como direção autônoma, por exemplo, uma intervenção (como frear bruscamente) sinaliza uma divergência, mas não oferece um modelo de resposta ideal. O agente de RL deve focar em evitar a circunstância que provocou a intervenção, em vez de simplesmente imitar a ação.

“A decisão de intervir durante um episódio de imitação interativa pode fornecer um sinal de recompensa para o aprendizado por reforço”, afirmam os pesquisadores. Isso permite que métodos de RL operem sob pressupostos semelhantes, mas mais flexíveis do que o aprendizado por imitação interativa, utilizando intervenções humanas sem assumir que são ótimas.

O RLIF treina agentes com uma combinação de demonstrações e intervenções interativas, considerando essas intervenções como indicadores de potenciais erros, em vez de guias definitivos para ações ideais.

“Esperamos que os especialistas intervenham com mais frequência quando a política treinada toma ações subótimas”, destacaram os pesquisadores, enfatizando que as intervenções servem como sinais valiosos para modificar o comportamento da IA.

Ao abordar as limitações tanto do aprendizado por reforço tradicional quanto do aprendizado por imitação interativa—como a necessidade de uma função exata de recompensa e intervenções ótimas—o RLIF se mostra mais prático para ambientes complexos.

“Os especialistas podem achar mais fácil identificar estados indesejáveis do que agir de forma consistente de maneira ótima nessas situações”, acrescentaram os pesquisadores.

Testando o RLIF

A equipe da U.C. Berkeley avaliou o RLIF em comparação com o DAgger, um proeminente algoritmo de aprendizado por imitação interativa. Em ambientes simulados, o RLIF superou as principais variantes do DAgger por uma média de duas a três vezes, com essa diferença aumentando para cinco vezes quando as intervenções dos especialistas eram subótimas.

Testes no mundo real, envolvendo desafios robóticos como manipulação de objetos e dobradura de tecidos, validaram ainda mais a robustez e aplicabilidade do RLIF em situações práticas.

Embora o RLIF apresente alguns desafios—como altas demandas de dados e complexidades na implementação em tempo real—ele possui um grande potencial para o treinamento de sistemas robóticos avançados em diversas aplicações, tornando-se uma ferramenta transformadora no campo da IA.

Astrônomo Melhora o Apache Airflow para Orquestração de Dados em Aplicações de IA

Visual Electric Lança Ferramenta Revolucionária para Transformar a Geração de Arte com IA Além de Interfaces de Chat

Most people like

Cursor

1.3M

Apresentando o Editor de Código Inteligente: Acelere Seu Fluxo de Trabalho em Desenvolvimento de Software.

IA AI Code Assistant

Cloth2Life

9.7K

Descubra uma plataforma inovadora de IA projetada para criar imagens impressionantes de modelos de moda diretamente a partir de designs em flat lay. Esta ferramenta revolucionária aproveita o poder da inteligência artificial para dar vida aos seus conceitos de moda, permitindo que você visualize as roupas de maneira dinâmica e envolvente. Perfeita para designers e varejistas, esta plataforma eleva sua estratégia de marketing ao transformar imagens estáticas em visuais vibrantes e atraentes de modelos.

Modelos de Moda com IA AI Photo & Image Generator

Imagga

36.7K

Imagga é uma API poderosa projetada para oferecer soluções avançadas de reconhecimento de imagem, possibilitando marcação fluida, categorização eficaz, capacidades de busca eficientes e recursos robustos de moderação.

Reconhecimento de imagem AI Image Recognition

FacelessVideos

13.5K

Desbloqueie o mundo dos vídeos anônimos no TikTok usando tecnologia de IA! Neste guia, você descobrirá como produzir facilmente conteúdos envolventes e anônimos que cativam os espectadores, aproveitando o poder da inteligência artificial. Diga adeus à ansiedade de aparecer na câmera e olá ao potencial criativo ilimitado. Mergulhe e aprenda como a IA pode transformar sua presença no TikTok hoje mesmo!

IA Text to Video

Find AI tools in YBX