В последние месяцы наблюдается рост проектов, использующих большие языковые модели (LLM) для разработки инновационных приложений в области робототехники, которые ранее казались невозможными. Сила LLM и многомодульных моделей позволяет исследователям создавать роботов, способных обрабатывать команды на естественном языке и выполнять сложные задачи, требующие высокого уровня логики.
Возрастающий интерес к пересечению LLM и робототехники оживляет стартапы в этой области: множество компаний привлекают значительные инвестиции и демонстрируют впечатляющие разработки. Благодаря выдающимся достижениям в LLM мы можем стоять на пороге новой эры в робототехнике.
Языковые модели для восприятия и логики
Традиционно создание роботизированных систем требовало сложных инженерных усилий для разработки модулей планирования и логики, что затрудняло создание удобных интерфейсов для пользователей, учитывающих разнообразные способы подачи команд. Появление LLM и моделей языка и зрения (VLM) дало возможность инженерам-робототехникам революционно улучшить существующие системы. Одним из ключевых проектов в этой области стал SayCan, разработанный Google Research. SayCan использовал семантические знания, заложенные в LLM, для помощи роботам в логическом осмыслении задач и определении последовательностей действий.
«SayCan был одной из самых влиятельных работ в области робототехники», — отметил исследователь ИИ и робототехники Крис Пакстон. «Его модульная конструкция позволяет интегрировать различные компоненты для создания систем, способных на впечатляющие демонстрации».
После SayCan исследователи начали исследовать применение языковых и визуальных моделей в различных направлениях робототехники, что привело к значительному прогрессу. Некоторые проекты используют универсальные LLM и VLM, в то время как другие сосредотачиваются на адаптации существующих моделей для конкретных задач.
«Использование больших языковых моделей и визуальных моделей сделало восприятие и логическое рассуждение значительно более доступными», — отметил Пакстон. «Это позволило сделать множество роботизированных задач более достижимыми, чем когда-либо».
Сочетание существующих возможностей
Одним из основных ограничений традиционных роботизированных систем являются их механизмы управления. Команды могут обучать роботов отдельным навыкам, таким как открывание дверей или манипуляции с предметами, однако объединение этих навыков для выполнения сложных задач может быть сложно, что приводит к жестким системам, требующим явных инструкций.
LLM и VLM позволяют роботам интерпретировать нечеткие инструкции и сопоставлять их с конкретными последовательностями действий в зависимости от их возможностей. У многих современных моделей это возможно без значительного дополнительного обучения.
«С большими языковыми моделями я могу без усилий связывать разные навыки и логически рассуждать о их применении», — объяснил Пакстон. «Новые визуальные языковые модели, такие как GPT-4V, показывают, как эти системы могут эффективно взаимодействовать в различных приложениях».
Например, GenEM, метод, разработанный Университетом Торонто, Google DeepMind и Hoku Labs, использует обширный социальный контекст, зафиксированный в LLM, для генерации выразительных поведений роботов. Используя GPT-4, GenEM позволяет роботам понимать контексты — например, кивок в знак признания присутствия человека — и выполнять соответствующие действия, опираясь на обширные данные обучения и возможности контекстного обучения.
Другим примером является OK-Robot, разработанный Meta и Нью-Йоркским университетом, который объединяет VLM с модулями планирования движений и манипуляции объектами, чтобы выполнять задачи сбора и перемещения в незнакомых условиях.
Некоторые стартапы в области робототехники процветают на фоне этих достижений. Компания Figure, базирующаяся в Калифорнии, недавно привлекла 675 миллионов долларов на разработку гуманоидных роботов, использующих модели зрения и языка. Их роботы используют модели OpenAI для обработки инструкций и стратегического планирования действий.
Тем не менее, хотя LLM и VLM решают значительные проблемы, командам робототехников все еще необходимо разрабатывать системы для базовых навыков, таких как захват объектов, преодоление препятствий и маневрирование в различных средах.
«Ведется значительная работа на фундаментальном уровне, которую эти модели еще не охватывают», — сказал Пакстон. «Эта сложность подчеркивает необходимость данных, над созданием которых многие компании сейчас работают».
Специализированные базовые модели
Еще один многообещающий подход заключается в создании специализированных базовых моделей для робототехники, которые используют обширные знания, заложенные в предобученных моделях, и настраивают их архитектуры для решения роботизированных задач.
Одним из главных проектов в этой области является RT-2 от Google — модель действия на основе зрения и языка (VLA), которая обрабатывает данные восприятия и языковые инструкции для генерации команд для роботов.
Недавно Google DeepMind представила RT-X-2, усовершенствованную версию RT-2, которая умеет адаптироваться к различным морфологиям роботов и выполнять задачи, не входящие в его обучающий набор данных. Кроме того, RT-Sketch, разработанный в сотрудничестве DeepMind и Стэнфордского университета, переводит грубые эскизы в исполнимые планы действий для роботов.
«Эти модели представляют собой новый подход, являясь широкой политикой, способной справляться с несколькими задачами», — отметил Пакстон. «Это захватывающее направление, обусловленное энд-ту-энд обучением, где робот может выводить свои действия из видеопотока с камеры».
Базовые модели для робототехники все более входят в коммерческую сферу. Например, Covariant недавно представила RFM-1 — трансформер с 8 миллиардами параметров, обученный на разнообразных входных данных, включая текст, изображения, видео и действия роботов, направленный на создание универсальной базовой модели для различных приложений в робототехнике.
Тим временем, Project GR00T, представленный на Nvidia GTC, нацелен на то, чтобы гуманоидные роботы могли обрабатывать такие входы, как текст, речь и видео, переводя их в конкретные действия.
Полный потенциал языковых моделей остается в значительной степени нераскрытым и продолжит двигать исследования в области робототехники вперед. По мере дальнейшего развития LLM мы можем ожидать революционные изменения в этой сфере.