Обучение с подкреплением с учетом человеческого участия: новый подход к исправлению ошибок в системах ИИ

Home Новости ИИ Обучение с подкреплением с учетом человеческого участия: новый подход к исправлению ошибок в системах ИИ

Updated on декабрь 5 2023

Ученые из Университета Калифорнии в Беркли предложили революционную технику машинного обучения под названием «обучение с подкреплением через обратную связь интервенций» (RLIF). Этот инновационный подход упрощает обучение ИИ-систем в сложных условиях.

RLIF сочетает в себе обучение с подкреплением и интерактивное имитационное обучение — два ключевых метода для подготовки искусственного интеллекта. Он особенно полезен в сценариях, где сигналы вознаграждения отсутствуют, а человеческая обратная связь неточна, что является распространенной проблемой в обучении роботов.

Понимание техник: Обучение с подкреплением и имитационное обучение.

Обучение с подкреплением хорошо работает в средах с ясными функциями вознаграждения, что делает его эффективным для оптимального управления, игр и согласования больших языковых моделей (LLMs) с человеческими предпочтениями. Тем не менее, эта техника сталкивается с трудностями в робототехнике, где сложные цели часто не имеют явных сигналов вознаграждения.

В таких случаях инженеры обращаются к имитационному обучению — подмножеству контролируемого обучения, которое исключает необходимость в сигналах вознаграждения. Оно обучает модели на основе демонстраций человека. Например, человек может направлять роботизированную руку для манипуляции объектом, предоставляя визуальный пример для ИИ. Агент рассматривает эти демонстрации как данные для обучения.

Несмотря на свои преимущества, имитационное обучение сталкивается с проблемами, особенно с «проблемой несоответствия распределения». Это происходит, когда агенты сталкиваются со сценариями, не входящими в их тренировочные примеры, что приводит к снижению производительности. Интерактивное имитационное обучение решает эту проблему, позволяя экспертам предоставлять обратную связь в реальном времени, исправляя агента во время его действий, когда он отклоняется от желаемого пути. Однако этот метод часто зависит от почти оптимальных интервенций, что может быть непрактично, особенно в робототехнике, где человеческая точность может варьироваться.

Слияние подходов: Обучение с подкреплением и имитационное обучение.

Исследователи из У.К. Беркли предлагают гибридную модель, использующую сильные стороны как обучения с подкреплением, так и интерактивного имитационного обучения. RLIF основывается на понимании, что распознавать ошибки обычно проще, чем выполнять идеальные исправления.

В сложных задачах, таких как автономное вождение, вмешательство (например, резкое торможение) сигнализирует о отклонении, но не предоставляет оптимальной модели ответа. Агент RL должен сосредоточиться не на имитации действия, а на избежании обстоятельств, вызвавших интервенцию.

«Решение о вмешательстве во время интерактивной имитационной сессии может служить сигналом вознаграждения для обучения с подкреплением», заявляют исследователи. Это позволяет методам RL работать при схожих, но более гибких предположениях, используя человеческие интервенции без предположения, что они оптимальны.

RLIF обучает агентов с помощью комбинации демонстраций и интерактивных интервенций, рассматривая эти интервенции как индикаторы потенциальных ошибок, а не как определенные руководства к оптимальному действию.

«Мы ожидаем, что эксперты чаще будут вмешиваться, когда обученная политика совершает субоптимальные действия», отметили исследователи, подчеркивая, что интервенции служат ценными сигналами для изменения поведения ИИ.

Решая ограничения как традиционного обучения с подкреплением, так и интерактивного имитационного обучения — таких как необходимость в точной функции вознаграждения и оптимальных интервенциях — RLIF оказывается более практичным для сложных сред.

«Экспертам, возможно, проще идентифицировать нежелательные состояния, чем постоянно действовать оптимально в таких ситуациях», добавили исследователи.

Тестирование RLIF.

Команда У.К. Беркли оценила RLIF по сравнению с DAgger, известным алгоритмом интерактивного имитационного обучения. В симулированных средах RLIF показал лучшие результаты, превзойдя лучшие варианты DAgger в два-три раза, а это различие увеличилось до пяти раз, когда интервенции экспертов были субоптимальными.

Полевые испытания, касающиеся роботизированных задач, таких как манипуляция объектами и складывание тканей, дополнительно подтвердили надежность и применимость RLIF в реальных условиях.

Несмотря на некоторые вызовы, такие как высокие требования к данным и сложности в развертывании в реальном времени, RLIF обладает значительным потенциалом для обучения продвинутых роботизированных систем в различных приложениях, что делает его трансформирующим инструментом в области ИИ.

Астроном улучшает Apache Airflow для оркестрации данных в AI-приложениях

Visual Electric представляет революционный инструмент, который кардинально изменит создание AI-артов, выходя за рамки текстовых интерфейсов.

Most people like

YesChat.ai

2.6M

YesChat.ai использует мощные возможности GPT-4V, DALL-E 3 и Claude 2 для улучшения своих передовых функций ИИ-чатбота.

ChatGPT4V AI Chatbot

Png AI

Откройте для себя бесплатный инструмент ИИ, который мгновенно генерирует изображения PNG высокого качества. С этим инновационным решением вы сможете быстро и просто создавать потрясающие визуальные материалы, идеально подходящие для улучшения ваших проектов. Независимо от того, для личного использования или профессионального дизайна, поднимите свою креативность с помощью этого мощного ресурса уже сегодня!

Генератор PNG с ИИ Text to Image

Textbuddy.com

8.2K

Textbuddy.com — это мощный инструмент, созданный для помощи писателям в улучшении ясности и лаконичности их текста. Анализируя текст простым и понятным языком, Textbuddy.com упрощает процесс написания и гарантирует, что ваше сообщение эффективно воспринимается читателями.

Другие Writing Assistants

Cursor - The AI-first Code Editor

28.7K

Cursor — это редактор кода на базе ИИ, предназначенный для улучшения совместной работы в парном программировании, что позволяет разработчикам более эффективно и результативно работать вместе.

Искусственный интеллект в первую очередь AI Code Assistant

Find AI tools in YBX