Недавние достижения в области моделей «визия-язык» (VLM) позволяют сопоставлять естественные языковые запросы с объектами в визуальных сценах. Исследователи исследуют, как интегрировать эти модели в системы робототехники, которые часто испытывают трудности с обобщением своих возможностей.
Важная работа исследователей из Meta AI и Нью-Йоркского университета представляет открытую структуру на основе знаний, называемую OK-Robot. Эта инновационная система сочетает заранее обученные модели машинного обучения (ML) для выполнения задач в незнакомых условиях, в частности, в операциях поднятия и размещения без необходимости дополнительного обучения.
Проблемы современных робототехнических систем
Большинство робототехнических систем разрабатываются для использования в знакомых им средах, что ограничивает их возможности адаптации к новым условиям, особенно в неструктурированных пространствах, таких как дома. Несмотря на значительный прогресс в различных компонентах — VLM, отлично связывающим языковые запросы с визуальными объектами, и улучшенными навыками роботов в навигации и захвате — интеграция этих технологий все равно приводит к субоптимальным результатам.
Исследователи отмечают: «Для решения этой проблемы необходимо создать аккуратную и продуманную структуру, которая объединяет VLM и примитивы робототехники, оставаясь при этом достаточно гибкой для включения новых моделей из сообществ VLM и робототехники».
Обзор OK-Robot
OK-Robot объединяет передовые VLM с надежными механизмами робототехники для выполнения операций поднятия и размещения в незнакомых условиях. Он использует модели, обученные на обширных открытых наборах данных.
Структура состоит из трех основных подсистем: модуля навигации объектов с открытым вокабуляром, RGB-D модуля захвата и эвристической системы размещения. При входе в новое пространство OK-Robot требует ручного сканирования, которое можно легко выполнить с помощью приложения для iPhone, фиксирующего серию RGB-D изображений по мере движения пользователя по области. Эти изображения, совместно с позиционированием камеры, создают 3D-карту окружающей среды.
Каждое изображение обрабатывается с использованием модели трансформера для извлечения информации об объектах. Эти данные, вместе с контекстом окружающей среды, поступают в семантический модуль памяти объектов, позволяя системе реагировать на естественные языковые запросы для извлечения объектов. Память вычисляет векторные представления голосовых подсказок и сопоставляет их с ближайшими семантическими обозначениями. Навигационные алгоритмы затем прокладывают наиболее эффективный путь к объекту, гарантируя, что у робота достаточно пространства для безопасного захвата.
Наконец, робот использует RGB-D камеру с моделью сегментации объектов и предварительно обученной моделью захвата для поднятия предмета. Похожий метод применяется для навигации к месту размещения. Эта система позволяет роботу определять наиболее подходящий способ захвата для различных типов объектов и управлять местами назначения, которые могут быть неровными. «От входа в совершенно новую среду до начала автономных операций нашей системе нужно в среднем менее 10 минут для выполнения первой задачи поднятия и размещения», — сообщают исследователи.
Тестирование и результаты
Исследователи оценили OK-Robot в десяти домах, проведя 171 эксперимент по поднятию и размещению. Он успешно завершил полные операции в 58% случаев, демонстрируя свои возможности нулевого обучения — то есть модели не были явно обучены для этих условий. Совершенствуя входные запросы, уменьшая загромождение пространства и минимизируя наличие препятствующих объектов, уровень успеха может превышать 82%.
Несмотря на наличие потенциала, у OK-Robot есть ограничения. Он иногда неверно сопоставляет языковые подсказки с правильными объектами, испытывает трудности с определенными захватами и имеет ограничения в аппаратном обеспечении. Более того, модуль памяти объектов остается статичным после сканирования, что не позволяет роботу адаптироваться к изменениям в расположении или доступности объектов.
Несмотря на эти вызовы, проект OK-Robot представляет собой важные выводы. Во-первых, он демонстрирует, что современные VLM с открытым вокабуляром excel в идентификации разнообразных реальных объектов и навигации к ним с использованием нулевого обучения. Кроме того, он подтверждает, что специализированные роботизированные модели, предварительно обученные на обширных наборах данных, могут бесшовно облегчать захват с открытым вокабуляром в новых условиях. Наконец, он подчеркивает потенциал комбинации предварительно обученных моделей для выполнения задач с нулевым обучением без дополнительного обучения, прокладывая путь для будущих достижений в этой развивающейся области.