Крупные языковые модели (LLM) радикально меняют подход к обучению робототехнических систем, как показало недавнее исследование, проведенное Nvidia, Университетом Пенсильвании и Университетом Техаса в Остине. В исследовании представлена техника DrEureka, которая автоматически создает функции вознаграждения и распределения случайных параметров для робототехнических систем. DrEureka (Domain Randomization Eureka) требует лишь описание задачи на высоком уровне и превосходит традиционные вознаграждения, разработанные людьми, в переносе изученных политик из симуляции в реальные приложения.
Перенос из симуляции в реальность
В робототехнике политики обычно обучаются в симулированных условиях перед внедрением в реальный мир. Проблема переноса этих изученных политик, часто называемая «расстоянием между симуляцией и реальностью», требует значительной доработки между симуляцией и реальными условиями. Недавние достижения показывают, что LLM могут использовать свои обширные знания и навыки рассуждения наряду с физическими движками виртуальных симуляторов для освоения сложных моторных навыков. LLM способны генерировать функции вознаграждения — ключевые компоненты, которые направляют системы обучения с подкреплением (RL), для определения оптимальных последовательностей действий, необходимых для выполнения задач. Однако перенос изученной политики в реальные приложения часто подразумевает трудоемкие корректировки функций вознаграждения и параметров симуляции.
Решение DrEureka
DrEureka нацелена на оптимизацию процесса переноса из симуляции в реальность, автоматизируя проектирование функций вознаграждения и параметров доменной рандомизации (DR). Основываясь на технике Eureka, представленной в октябре 2023 года, DrEureka использует LLM для генерации программных реализаций функций вознаграждения на основе описаний задач. Эти функции тестируются в симуляциях, а результаты служат основой для внесения изменений, что позволяет одновременно оптимизировать несколько функций вознаграждения. В то время как Eureka облегчает обучение RL-политик в симулированных условиях, она не решает сложные проблемы реальных сценариев и требует ручного вмешательства для перехода от симуляции к реальности. DrEureka улучшает этот процесс, автоматически настраивая параметры DR. Техники DR вводят изменчивость в симуляцию, позволяя политикам RL адаптироваться к непредсказуемости реального мира. Выбор соответствующих параметров требует здравого физического понимания, что делает данную задачу идеальной для LLM.
Реализация DrEureka
DrEureka применяет многоступенчатый подход для одновременной оптимизации функций вознаграждения и доменной рандомизации. Сначала LLM генерирует функции вознаграждения на основе инструкций по безопасности и описаний задач. Модель использует эти инструкции для разработки начальной функции вознаграждения, обучаясь политике, схожей с оригинальным методом Eureka. Затем проводятся тесты для определения оптимальных физических параметров, таких как трение и гравитация, которые направляют выбор конфигураций доменной рандомизации. Политика затем переобучается с учетом этих конфигураций, что увеличивает ее устойчивость к реальному шуму. Исследователи описывают DrEureka как «канал, управляемый языковой моделью, для переноса из симуляции в реальность с минимальным вмешательством человека».
Результаты производительности
Команда оценила DrEureka на платформах с четвероногими и манипулятивными роботами. Их результаты показали, что политики передвижения четвероногих роботов, обученные с помощью DrEureka, превосходили традиционные системы, разработанные человеком, на 34% по скорости движения и на 20% по пройденному расстоянию по различным местностям. В тестах по ловкости манипуляции лучшая политика, разработанная DrEureka, достигла на 300% больше вращений куба за фиксированное время по сравнению с политиками, созданными людьми.
Одним из примечательных применений DrEureka стал робот-собака, балансирующий и шагающий по йога-мячу. LLM успешно разработала функции вознаграждения и конфигурации DR, которые обеспечили бесперебойную работу в реальности, не требуя дополнительных настроек, и эффективно функционировала на различных поверхностях как в помещении, так и на улице с минимальной поддержкой безопасности. Исследование также показало, что добавление инструкций по безопасности в описание задач значительно влияет на логическую последовательность инструкций, генерируемых LLM, для переноса в реальность.
«Мы считаем, что DrEureka демонстрирует потенциал ускорить исследования в области обучения роботов, автоматизируя сложные элементы дизайна для приобретения низкоуровневых навыков», — заключили исследователи.