Стэнфорд и Meta развивают человечный ИИ с помощью инновационной модели взаимодействия 'CHOIS'

Исследователи Стэнфордского университета и лаборатории Facebook AI Research (FAIR) представили революционную систему ИИ, способную генерировать реалистичные, синхронизированные движения между виртуальными людьми и объектами, используя лишь текстовые описания. Новаторская система, названная CHOIS (Controllable Human-Object Interaction Synthesis), использует передовые техники условной диффузии для создания бесшовных взаимодействий. Например, она может интерпретировать и анимировать инструкции, такие как «подними стол над головой, пройди и поставь стол на место».

Исследование, опубликованное на arXiv, намекает на будущее, в котором виртуальные существа смогут интерпретировать и выполнять языковые команды так же плавно, как это делают люди. «Генерация непрерывных взаимодействий человека с объектами на основе языковых описаний в 3D-сценах представляет собой несколько вызовов», — отметили исследователи. Они выделили в приоритете реалистичные движения, при которых человеческие руки правильно взаимодействуют с объектами, а объекты движутся в ответ на действия человека.

Как работает CHOIS

CHOIS преуспевает в создании взаимодействий человека с объектами в 3D-пространстве. В его основе лежит условная диффузионная модель — генеративная структура, способная моделировать подробные последовательности движений. Учитывая начальное положение человека и объектов, а также языковое описание желаемого действия, CHOIS генерирует последовательность движений, достигающую цели. Например, при команде приблизить лампу к дивану, CHOIS может создать реалистичную анимацию, в которой человеческий аватар поднимает лампу и ставит её рядом с диваном.

Отличительной особенностью CHOIS является использование редких контрольных точек объекта и языковых входов для управления анимацией. Эти контрольные точки служат маркерами ключевых моментов в движении объекта, гарантируя, что анимация будет не только реалистичной, но и согласованной с общей целью, описанной в языковом входе. Кроме того, CHOIS более эффективно объединяет понимание языка с физической симуляцией, в отличие от традиционных моделей, которые часто испытывают трудности в сопоставлении языка с пространственными и физическими действиями во время продолжительных взаимодействий. CHOIS интерпретирует намерения и стиль языковых описаний, переводя их в серию физических движений, соблюдая при этом ограничения человеческого тела и взаимодействующих объектов.

Эта система обеспечивает точное представление контактных точек, таких как касание объектов руками, и согласовывает движение объекта с силами, действующими от аватара. Благодаря специализированным функциям потерь и управляющим параметрам на этапах обучения и генерации CHOIS укрепляет эти физические ограничения, что является значительным шагом вперед в способности ИИ понимать и взаимодействовать с физическим миром, как это делают люди.

Значение для компьютерной графики, ИИ и робототехники

CHOIS имеет значительное влияние на компьютерную графику, особенно в анимации и виртуальной реальности. Позволяя ИИ интерпретировать команды на естественном языке для реалистичных взаимодействий человека с объектами, CHOIS может существенно упростить процесс анимации, сократив время и усилия, традиционно необходимые для создания сложных сцен.

Аниматоры могут использовать эту технологию для автоматизации последовательностей, которые обычно требуют тщательной ключевой анимации. В виртуальной реальности CHOIS может создать более погружающий опыт, где пользователи могут управлять виртуальными персонажами с помощью естественного языка и наблюдать за реалистичным выполнением задач, превращая заранее написанные взаимодействия в динамичные, отзывчивые среды.

В области ИИ и робототехники CHOIS представляет собой значительный шаг к созданию автономных, учитывающих контекст систем. Вместо того чтобы полагаться на заранее запрограммированные рутины, роботы могут использовать CHOIS для понимания и выполнения задач, описанных на человеческом языке. Это может революционизировать сервисных роботов в таких сферах, как здравоохранение, гостиничный бизнес и домашние условия, улучшая их способность интерпретировать и выполнять разнообразные задачи в физических пространствах.

Более того, способность одновременно обрабатывать языковую и визуальную информацию позволяет ИИ достигать уровня ситуативного и контекстного понимания, который прежде был характерен только для человека. Этот прогресс может привести к созданию ИИ-систем, которые будут функционировать как более эффективные помощники в сложных задачах, понимая не только «что», но и «как» выполнять человеческие инструкции и адаптироваться к новым вызовам с беспрецедентной гибкостью.

Обнадеживающие результаты и перспективы

В заключение, совместные исследования Стэнфорда и Meta свидетельствуют о значительном прогрессе на стыке компьютерного зрения, обработки естественного языка (NLP) и робототехники. Исследователи рассматривают эту работу как важный этап в разработке сложных ИИ-систем, способных моделировать непрерывные человеческие поведения в различных 3D-средах. Кроме того, это открывает путь для дальнейшего изучения синтеза взаимодействий человека с объектами на основе 3D-сцен и языковых входов, что может привести к ещё более продвинутым технологиям ИИ в будущем.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles