Имперский колледж Лондона и DeepMind представляют воплощённые агенты, способные обучаться с минимальным объемом данных.

Физически воплощенные ИИ-агенты, способные взаимодействовать с реальным миром, обладают огромным потенциалом для широкого спектра приложений. Однако одной из основных проблем остается нехватка обучающих данных.

Чтобы справиться с этой задачей, исследователи из Имперского колледжа Лондона и Google DeepMind представили структуру Diffusion Augmented Agents (DAAG). Этот инновационный подход использует возможности больших языковых моделей (LLM), моделей визуального языка (VLM) и диффузионных моделей для повышения эффективности обучения и возможностей переноса знаний у воплощенных агентов.

Почему важна эффективность данных для воплощенных агентов?

Недавние достижения в области LLM и VLM пробудили надежды на их использование в робототехнике и воплощенном ИИ. Хотя эти модели могут обучаться на больших наборах текстовых и визуальных данных с интернета, системам воплощенного ИИ необходимо учиться через физические взаимодействия.

Реальный мир представляет собой уникальные проблемы для сбора данных в области воплощенного ИИ. Физические среды значительно более сложны и непредсказуемы, чем цифровые. Дополнительно, роботы и другие воплощенные ИИ полагаются на физические сенсоры и приводы, которые могут быть медленными, шумными и подверженными сбоям.

Исследователи утверждают, что преодоление этих сложностей заключается в оптимизации использования существующих данных и опыта агента. "Мы предполагаем, что воплощенные агенты могут достичь большей эффективности данных, используя прошлый опыт для эффективного исследования и передачи знаний между задачами."

Что такое DAAG?

Структура Diffusion Augmented Agent (DAAG) создана для повышения эффективности обучения агентов, используя прошлый опыт и генерацию синтетических данных. Исследователи стремятся помочь агентам самостоятельно устанавливать и оценивать подзадачи, даже без внешних вознаграждений, перерабатывая свои предыдущие опыты для ускорения обучения в новых задачах.

DAAG функционирует в рамках марковского процесса принятия решений (MDP). В начале каждого эпизода агент получает инструкции по задаче, наблюдает за окружающей средой и выполняет действия, чтобы достичь состояния, соответствующего этим инструкциям. Структура включает два буфера памяти: буфер, специфичный для задачи, для текущих опытов, и "офлайн буфер на протяжении жизни" для всех прошлых опытов, независимо от задач или результатов.

DAAG синергетически объединяет сильные стороны LLM, VLM и диффузионных моделей, создавая агентов, способных к рассуждениям, анализу окружающей среды и эффективному обучению новым целям, перерабатывая предыдущий опыт. LLM выступает в роли центрального контроллера, интерпретируя новые инструкции по задачам, разбивая их на меньшие подзадачи и координируя действия с VLM и диффузионной моделью для достижения целей.

Чтобы максимизировать полезность прошлого опыта, DAAG применяет метод, называемый Hindsight Experience Augmentation (HEA). VLM обрабатывает визуальные наблюдения в буфере опыта и сравнивает их с желаемыми подзадачами, улучшая память агента актуальными наблюдениями. Если соответствующие опыты отсутствуют, диффузионная модель генерирует синтетические данные, чтобы помочь агенту визуализировать возможные результаты, позволяя исследовать без прямого физического взаимодействия. "С помощью HEA мы можем синтетически увеличить количество успешных эпизодов в буферах агента, что позволяет эффективно повторно использовать данные и значительно повышает эффективность, особенно при обучении множеству задач подряд," объясняют исследователи.

Они описывают DAAG и HEA как автономный процесс, работающий независимо от человеческого контроля, основывающийся на геометрической и временной согласованности для генерации надежных дополненных наблюдений.

Каковы преимущества DAAG?

В своих оценках по нескольким бенчмаркам и симулированным средам исследователи обнаружили, что DAAG значительно превосходит традиционные системы обучения с подкреплением в таких задачах, как навигация и манипуляция объектами. Примечательно, что агенты, использующие DAAG, достигали целей даже без явных вознаграждений, быстрее решали задачи и требовали меньше взаимодействия с окружающей средой по сравнению с не-DAAG агентами.

Структура преуспевает в повторном использовании данных из предыдущих задач, что облегчает быстрое обучение новым целям. Способность передавать знания между задачами имеет решающее значение для создания агентов, способных к непрерывному обучению и адаптации. Эффективность DAAG в оптимизации переноса знаний открывает путь к более устойчивым и гибким роботам и системам воплощенного ИИ.

"Эта работа предлагает многообещающие направления для решения проблемы нехватки данных в обучении робототехнике и для разработки более универсальных агентов," подводят итог исследователи.

Most people like

Find AI tools in YBX