Люди часто используют выразительные жесты для передачи своих целей и намерений. Например, мы кидаем головой в знак приветствия, качаем ею в знак неодобрения или говорим "извините", чтобы пробраться через толпу. Чтобы облегчить взаимодействие с людьми, мобильные роботы также должны демонстрировать аналогичные выразительные поведения. Однако это остается значительной задачей в области робототехники, и существующие решения зачастую не имеют гибкости и адаптивности.
В groundbreaking исследовании, проведенном учеными из Университета Торонто, Google DeepMind и Hoku Labs, представлен GenEM — новый подход, использующий обширный социальный контекст большого языкового моделирования (LLMs), чтобы позволить роботам выполнять выразительные действия. С помощью различных методов подачи запросов GenEM позволяет роботам интерпретировать свою окружающую среду и эффективно воспроизводить человеческие выражения.
Выразительные поведения в робототехнике
Традиционно создание выразительных действий роботов опиралось на системы, основанные на правилах или шаблонах, что требовало значительных ручных затрат для каждого робота и среды. Эта жесткость означает, что любые изменения или адаптации требуют обширного перепрограммирования. Более современные методы склоняются к подходам, основанным на данных, которые предлагают большую гибкость, однако зачастую требуют специализированных наборов данных, адаптированных к взаимодействиям каждого робота.
GenEM переосмысливает этот подход, используя богатые знания LLM для динамического генерирования выразительных поведений, устраняя необходимость в традиционном обучении модели или сложных наборах правил. Например, LLM могут распознавать важность зрительного контакта или кивки в различных социальных контекстах.
«Наше основное понимание заключается в том, чтобы использовать богатый социальный контекст LLM для создания адаптивных и компонуемых выразительных поведений», — поясняют исследователи.
Генеративное выразительное движение (GenEM)
GenEM использует последовательность агентов LLM, которые автономно генерируют выразительные поведения робота на основе естественных языковых команд. Каждый агент участвует, анализируя социальные контексты и переводя эти поведения в вызываемые API-команды для робота.
«GenEM может создавать мультимодальные поведения, используя возможности робота — такие как речь и движения тела — для ясного выражения намерений», — отмечают исследователи. «Одной из ключевых особенностей GenEM является способность адаптироваться к обратной связи от людей, что позволяет проводить итеративные улучшения и генерировать новые выразительные поведения».
Рабочий процесс GenEM начинается с естественной языковой инструкции, которая либо указывает на выразительное действие, например “Кивните головой”, либо устанавливает социальный сценарий, например, “Человек, проходящий мимо, машет вам”. Сначала LLM использует рассуждения цепочкой мыслей, чтобы представить возможную реакцию человека. Затем другой агент LLM переводит это в пошаговое руководство, отражающее доступные функции робота, направляя такие действия, как наклон головы или активация определенных световых паттернов.
Далее процедурные инструкции преобразуются в исполняемый код, основываясь на командах API робота. Опционально можно включить обратную связь от человека, чтобы дополнительно уточнить поведение, без необходимости обучать LLM — нужны только корректировки подачи запросов в зависимости от характеристик робота.
Тестирование GenEM
Исследователи оценили поведения, созданные двумя вариациями GenEM — одной с учетом пользовательской обратной связи и другой без нее — по сравнению со сценарными поведениями, разработанными профессиональным аниматором. Используя GPT-4 от OpenAI для контекстного рассуждения и генерации выразительного поведения, они опросили пользователей о результатах. Результаты показали, что пользователи в целом считали поведения, сгенерированные GenEM, столь же понятными, как и поведения профессионального аниматора. Более того, модульный, многоступенчатый метод GenEM значительно превзошел предыдущий единый подход LLM.
Ключевым является то, что основанный на запросах дизайн GenEM адаптируется к любому типу робота, не требуя специализированных наборов данных для обучения. Он эффективно использует рассуждения LLM, чтобы создать сложные выразительные поведения из простых действий робота.
«Наш фреймворк быстро генерирует выразительные поведения благодаря обучению в контексте и методам с несколькими примерами, значительно уменьшая необходимость в курируемых наборах данных или сложных системах правил, как это было в предыдущих методах», — подводят итог исследователи.
Хотя GenEM все еще находится на начальных стадиях, его в основном тестировали в единичных интерактивных сценариях и ограниченных пространств действия. Существует потенциал для исследований в области роботов с более разнообразными примитивными действиями, а большие языковые модели обещают улучшить эти функции еще больше.
«Мы полагаем, что наш подход предлагает гибкий фреймворк для генерации адаптивного и компонуемого выразительного движения, используя возможности больших языковых моделей», — резюмируют исследователи.