Фундаментальные Модели и Робототехника: Появление OpenVLA
Фундаментальные модели значительно продвинули робототехнику, способствуя разработке моделей взаимодействия "визуализация-язык-действие" (VLA). Эти модели способны обобщать объекты, сцены и задачи, выходящие за рамки их первоначальных данных для обучения. Однако их внедрение ограничено из-за закрытого характера и отсутствия лучших практик для адаптации к новым условиям.
Введение OpenVLA
Чтобы решить эти проблемы, исследователи из Стэнфордского университета, UC Berkeley, Toyota Research Institute, Google DeepMind и других учреждений запустили OpenVLA — модель VLA с открытым исходным кодом, обученную на разнообразных демонстрациях робототехники в реальном мире. OpenVLA не только превосходит другие модели в задачах робототехники, но и позволяет легко настраивать производительность в многозадачных средах с различными объектами. Разработанная с учетом эффективности, она использует методы оптимизации, позволяя работать на потребительских GPU с минимальными затратами на дообучение.
Важность Моделей Визуализация-Язык-Действие
Традиционные методы манипуляции роботами часто испытывают трудности с обобщением вне обучающих сценариев. Они, как правило, ineffective против отвлекающих факторов или невидимых объектов и имеют проблемы с адаптацией к слегка измененным инструкциям. Напротив, большие языковые модели (LLMs) и модели визуализации-языка (VLMs) превосходно справляются с обобщением благодаря масштабным предобучающим датасетам. Недавно исследовательские лаборатории начали интегрировать LLMs и VLMs в качестве основополагающих компонентов для разработки роботизированных политик.
Две основных стратегии включают использование предобученных LLMs и VLMs в модульных системах для планирования и выполнения задач, а также создание VLA с нуля для генерации прямых действий управления роботами. Заметные примеры, такие как RT-2 и RT-2-X, установили новые стандарты для общих роботизированных политик.
Тем не менее, текущие VLA сталкиваются с двумя основными проблемами: их закрытая архитектура ограничивает прозрачность обучения и смешивания данных, а отсутствие стандартных практик для развертывания и адаптации к новым роботам и задачам также оказалась затруднительной. Исследователи подчеркивают необходимость в открытых, универсальных VLA для содействия эффективной адаптации, отражая существующую экосистему с открытым исходным кодом для языковых моделей.
Архитектура OpenVLA
OpenVLA, состоящая из 7 миллиардов параметров, основывается на модели визуализация-язык Prismatic-7B и включает двойной визуальный энкодер для извлечения признаков изображения, совместимый с языковой моделью LLaMA-2 7B для обработки инструкций. Обученная на 970,000 траекториях манипуляции роботами из датасета Open-X Embodiment, OpenVLA охватывает широкий спектр роботизированных задач и окружающей среды, генерируя токены действий, соответствующие конкретным действиям робота.
OpenVLA получает натуральные языковые инструкции вместе с входными изображениями, обрабатывая оба источника, чтобы определить оптимальную последовательность действий, необходимых для выполнения задач, таких как "протереть стол". Показательно, что она превосходит модель RT-2-X с 55 миллиардами параметров, ранее считавшуюся эталоном для embodiments WidowX и Google Robot.
Дообучение и Эффективность
Исследователи изучили эффективные стратегии дообучения для семи манипуляционных задач, продемонстрировав, что дообученные политики OpenVLA превосходят предобученные альтернативы, особенно при переводе языковых инструкций в многозадачные поведения с различными объектами. OpenVLA достигает уникального успеха более чем 50% во всех протестированных задачах, что делает ее надежным вариантом для имитационного обучения в разнообразных сценариях.
В стремлении к доступности и эффективности команда использовала метод низкоранговой адаптации (LoRA) для дообучения, достигнув конкретных коррективов задач за 10-15 часов на одном GPU A100, что значительно снижает вычислительные затраты. Квантизация модели также уменьшила ее размер, что позволило развернуть на потребительских GPU без потери производительности.
Открытый Код OpenVLA
Исследователи открыли полный код модели OpenVLA вместе с ноутбуками для развертывания и дообучения, а также с кодом для масштабируемого обучения VLA. Они ожидают, что эти ресурсы подтолкнут к дальнейшему изучению и адаптации VLA в робототехнике. Библиотека поддерживает дообучение на отдельных GPU и может организовывать обучение VLA на миллиарды параметров в многоузловых кластерах GPU, согласуясь с современными методами оптимизации и параллельной обработки.
Будущие разработки OpenVLA направлены на интеграцию множества изображений и проприорецептивных входов, а также истории наблюдений. Более того, использование VLMs, предобученных на пересекающихся изображениях и текстовых данных, может улучшить гибкость дообучения VLA.
С помощью OpenVLA сообщество робототехников находится на пороге замечательных достижений, делая модели VLA более доступными и адаптивными для различных приложений.