Ученые из Университета Калифорнии в Беркли предложили революционную технику машинного обучения под названием «обучение с подкреплением через обратную связь интервенций» (RLIF). Этот инновационный подход упрощает обучение ИИ-систем в сложных условиях.
RLIF сочетает в себе обучение с подкреплением и интерактивное имитационное обучение — два ключевых метода для подготовки искусственного интеллекта. Он особенно полезен в сценариях, где сигналы вознаграждения отсутствуют, а человеческая обратная связь неточна, что является распространенной проблемой в обучении роботов.
Понимание техник: Обучение с подкреплением и имитационное обучение.
Обучение с подкреплением хорошо работает в средах с ясными функциями вознаграждения, что делает его эффективным для оптимального управления, игр и согласования больших языковых моделей (LLMs) с человеческими предпочтениями. Тем не менее, эта техника сталкивается с трудностями в робототехнике, где сложные цели часто не имеют явных сигналов вознаграждения.
В таких случаях инженеры обращаются к имитационному обучению — подмножеству контролируемого обучения, которое исключает необходимость в сигналах вознаграждения. Оно обучает модели на основе демонстраций человека. Например, человек может направлять роботизированную руку для манипуляции объектом, предоставляя визуальный пример для ИИ. Агент рассматривает эти демонстрации как данные для обучения.
Несмотря на свои преимущества, имитационное обучение сталкивается с проблемами, особенно с «проблемой несоответствия распределения». Это происходит, когда агенты сталкиваются со сценариями, не входящими в их тренировочные примеры, что приводит к снижению производительности. Интерактивное имитационное обучение решает эту проблему, позволяя экспертам предоставлять обратную связь в реальном времени, исправляя агента во время его действий, когда он отклоняется от желаемого пути. Однако этот метод часто зависит от почти оптимальных интервенций, что может быть непрактично, особенно в робототехнике, где человеческая точность может варьироваться.
Слияние подходов: Обучение с подкреплением и имитационное обучение.
Исследователи из У.К. Беркли предлагают гибридную модель, использующую сильные стороны как обучения с подкреплением, так и интерактивного имитационного обучения. RLIF основывается на понимании, что распознавать ошибки обычно проще, чем выполнять идеальные исправления.
В сложных задачах, таких как автономное вождение, вмешательство (например, резкое торможение) сигнализирует о отклонении, но не предоставляет оптимальной модели ответа. Агент RL должен сосредоточиться не на имитации действия, а на избежании обстоятельств, вызвавших интервенцию.
«Решение о вмешательстве во время интерактивной имитационной сессии может служить сигналом вознаграждения для обучения с подкреплением», заявляют исследователи. Это позволяет методам RL работать при схожих, но более гибких предположениях, используя человеческие интервенции без предположения, что они оптимальны.
RLIF обучает агентов с помощью комбинации демонстраций и интерактивных интервенций, рассматривая эти интервенции как индикаторы потенциальных ошибок, а не как определенные руководства к оптимальному действию.
«Мы ожидаем, что эксперты чаще будут вмешиваться, когда обученная политика совершает субоптимальные действия», отметили исследователи, подчеркивая, что интервенции служат ценными сигналами для изменения поведения ИИ.
Решая ограничения как традиционного обучения с подкреплением, так и интерактивного имитационного обучения — таких как необходимость в точной функции вознаграждения и оптимальных интервенциях — RLIF оказывается более практичным для сложных сред.
«Экспертам, возможно, проще идентифицировать нежелательные состояния, чем постоянно действовать оптимально в таких ситуациях», добавили исследователи.
Тестирование RLIF.
Команда У.К. Беркли оценила RLIF по сравнению с DAgger, известным алгоритмом интерактивного имитационного обучения. В симулированных средах RLIF показал лучшие результаты, превзойдя лучшие варианты DAgger в два-три раза, а это различие увеличилось до пяти раз, когда интервенции экспертов были субоптимальными.
Полевые испытания, касающиеся роботизированных задач, таких как манипуляция объектами и складывание тканей, дополнительно подтвердили надежность и применимость RLIF в реальных условиях.
Несмотря на некоторые вызовы, такие как высокие требования к данным и сложности в развертывании в реальном времени, RLIF обладает значительным потенциалом для обучения продвинутых роботизированных систем в различных приложениях, что делает его трансформирующим инструментом в области ИИ.