ОК-робот Meta добился способности нулевого выстрела для выбора и размещения объектов в не обученных средах.

Home Новости ИИ ОК-робот Meta добился способности нулевого выстрела для выбора и размещения объектов в не обученных средах.

Updated on январь 29 2024

Недавние достижения в области моделей «визия-язык» (VLM) позволяют сопоставлять естественные языковые запросы с объектами в визуальных сценах. Исследователи исследуют, как интегрировать эти модели в системы робототехники, которые часто испытывают трудности с обобщением своих возможностей.

Важная работа исследователей из Meta AI и Нью-Йоркского университета представляет открытую структуру на основе знаний, называемую OK-Robot. Эта инновационная система сочетает заранее обученные модели машинного обучения (ML) для выполнения задач в незнакомых условиях, в частности, в операциях поднятия и размещения без необходимости дополнительного обучения.

Проблемы современных робототехнических систем

Большинство робототехнических систем разрабатываются для использования в знакомых им средах, что ограничивает их возможности адаптации к новым условиям, особенно в неструктурированных пространствах, таких как дома. Несмотря на значительный прогресс в различных компонентах — VLM, отлично связывающим языковые запросы с визуальными объектами, и улучшенными навыками роботов в навигации и захвате — интеграция этих технологий все равно приводит к субоптимальным результатам.

Исследователи отмечают: «Для решения этой проблемы необходимо создать аккуратную и продуманную структуру, которая объединяет VLM и примитивы робототехники, оставаясь при этом достаточно гибкой для включения новых моделей из сообществ VLM и робототехники».

Обзор OK-Robot

OK-Robot объединяет передовые VLM с надежными механизмами робототехники для выполнения операций поднятия и размещения в незнакомых условиях. Он использует модели, обученные на обширных открытых наборах данных.

Структура состоит из трех основных подсистем: модуля навигации объектов с открытым вокабуляром, RGB-D модуля захвата и эвристической системы размещения. При входе в новое пространство OK-Robot требует ручного сканирования, которое можно легко выполнить с помощью приложения для iPhone, фиксирующего серию RGB-D изображений по мере движения пользователя по области. Эти изображения, совместно с позиционированием камеры, создают 3D-карту окружающей среды.

Каждое изображение обрабатывается с использованием модели трансформера для извлечения информации об объектах. Эти данные, вместе с контекстом окружающей среды, поступают в семантический модуль памяти объектов, позволяя системе реагировать на естественные языковые запросы для извлечения объектов. Память вычисляет векторные представления голосовых подсказок и сопоставляет их с ближайшими семантическими обозначениями. Навигационные алгоритмы затем прокладывают наиболее эффективный путь к объекту, гарантируя, что у робота достаточно пространства для безопасного захвата.

Наконец, робот использует RGB-D камеру с моделью сегментации объектов и предварительно обученной моделью захвата для поднятия предмета. Похожий метод применяется для навигации к месту размещения. Эта система позволяет роботу определять наиболее подходящий способ захвата для различных типов объектов и управлять местами назначения, которые могут быть неровными. «От входа в совершенно новую среду до начала автономных операций нашей системе нужно в среднем менее 10 минут для выполнения первой задачи поднятия и размещения», — сообщают исследователи.

Тестирование и результаты

Исследователи оценили OK-Robot в десяти домах, проведя 171 эксперимент по поднятию и размещению. Он успешно завершил полные операции в 58% случаев, демонстрируя свои возможности нулевого обучения — то есть модели не были явно обучены для этих условий. Совершенствуя входные запросы, уменьшая загромождение пространства и минимизируя наличие препятствующих объектов, уровень успеха может превышать 82%.

Несмотря на наличие потенциала, у OK-Robot есть ограничения. Он иногда неверно сопоставляет языковые подсказки с правильными объектами, испытывает трудности с определенными захватами и имеет ограничения в аппаратном обеспечении. Более того, модуль памяти объектов остается статичным после сканирования, что не позволяет роботу адаптироваться к изменениям в расположении или доступности объектов.

Несмотря на эти вызовы, проект OK-Robot представляет собой важные выводы. Во-первых, он демонстрирует, что современные VLM с открытым вокабуляром excel в идентификации разнообразных реальных объектов и навигации к ним с использованием нулевого обучения. Кроме того, он подтверждает, что специализированные роботизированные модели, предварительно обученные на обширных наборах данных, могут бесшовно облегчать захват с открытым вокабуляром в новых условиях. Наконец, он подчеркивает потенциал комбинации предварительно обученных моделей для выполнения задач с нулевым обучением без дополнительного обучения, прокладывая путь для будущих достижений в этой развивающейся области.

Semron привлечёт 7,9 миллиона долларов финансирования для продвинутой технологии AI-чипов с 3D упаковкой.

Инструмент для отравления ИИ Nightshade преодолел отметку в 250 000 загрузок всего за 5 дней: «Превзошли все наши ожидания»

Most people like

Blaze

467.5K

Представляем вам инструмент на основе ИИ, созданный для разработки контента, который идеально передает голос вашего бренда. Независимо от того, стремитесь ли вы привлечь внимание аудитории или укрепить идентичность бренда, это инновационное решение преобразует ваши идеи в убедительные истории, которые находят отклик у вашей целевой аудитории. Поднимите свою контент-стратегию на новый уровень с помощью передовых технологий, адаптированных специально под ваши нужды.

Инструмент ИИ AI Content Generator

Bing Image Creator

89.5K

Представляем генерацию постеров к фильмам с помощью ИИ для Disney и Pixar: раскрытие креативности и воображения! Откройте для себя инновационный мир создания постеров с использованием ИИ, где волшебные царства Disney и Pixar оживают в уникальных, визуально захватывающих дизайнах. Эта революционная технология использует искусственный интеллект для создания потрясающих постеров, которые отмечают любимых персонажей и истории, которые мы ценим. Погрузитесь в магию креативности и узнайте, как ИИ трансформирует наш опыт классических и новых кинематографических приключений!

Создание изображений с помощью ИИ AI Poster Generator

Dreamswipe

8.5K

Платформы с AI и чат-приложениями меняют подходы бизнеса к взаимодействию с клиентами. Используя современные технологии ИИ, эти платформы обеспечивают непрерывную коммуникацию, повышают вовлеченность пользователей и упрощают создание контента. Поскольку организации всё активнее применяют цифровые решения для улучшения клиентского опыта и повышения эффективности, понимание возможностей и преимуществ инструментов на базе ИИ становится необходимым. Исследуйте, как эти инновационные технологии не только преобразуют обслуживание клиентов, но и изменяют доставку контента в цифровом пространстве.

Технология ИИ AI Content Generator

PostgresML

26.1K

Представляем быструю, удобную и надежную платформу MLOps, созданную для оптимизации операций в области машинного обучения. Ощутите бесшовную интеграцию и повышенную эффективность ваших рабочих процессов.

МЛопс AI Developer Tools

Find AI tools in YBX