Представляем Alter3: Современный человекоподобный робот на базе GPT-4

Исследователи Токийского университета и компании Alternative Machine разработали гуманоидную робототехническую систему под названием Alter3, которая может переводить команды на естественном языке непосредственно в действия робота. Используя обширные знания, встроенные в крупные языковые модели (LLMs), такие как GPT-4, Alter3 способен выполнять сложные задачи, такие как селфи или имитация призрака.

Эта инновация представляет собой значительный шаг вперёд в интеграции базовых моделей с робототехническими системами. Хотя масштабируемое коммерческое решение ещё не реализовано, недавние успехи вдохнули новую жизнь в исследования робототехники и открывают большие перспективы.

Превращение языка в действия робота

Alter3 использует GPT-4 в качестве основной модели, обрабатывая инструкции на естественном языке, описывающие действия или сценарии, на которые должен реагировать робот. Модель применяет "агентскую структуру", чтобы составить ряд шагов действий, необходимых для достижения поставленной цели. Вначале она выступает в роли планировщика, определяя последовательность, необходимую для выполнения задачи.

Alter3 использует различные форматы подсказок GPT-4 для анализа инструкций и сопоставления их с командами робота. Поскольку GPT-4 не был специально обучен командам программирования Alter3, исследователи используют его обучение в контексте для адаптации вывода к API робота. Это включает предоставление списка команд и иллюстративных примеров их использования, что позволяет модели переводить каждый шаг действия в исполняемые команды API для робота.

«Ранее мы вручную контролировали все 43 оси в определённом порядке, чтобы воспроизвести человеческие позы или имитировать действия, такие как подача чая или игра в шахматы», - отмечают исследователи. «С LLM мы освобождены от этого трудоёмкого процесса».

Внедрение отзывов пользователей

Поскольку язык может быть неточным для описания физических движений, создаваемые моделью последовательности действий не всегда приводят к ожидаемому поведению робота. Чтобы решить эту проблему, исследователи интегрировали механизм обратной связи, позволяющий пользователям уточнять команды, такие как «Поднимите руку немного выше». Эти исправления обрабатываются другим агентом GPT-4, который корректирует код и возвращает обновлённую последовательность действий для выполнения роботом. Улучшенные планы и коды затем сохраняются для будущего использования.

Внедрение человеческой обратной связи и памяти значительно улучшает производительность Alter3. Исследователи оценили робота по ряду задач, от простых действий, таких как селфи и поедание чая, до более сложных имитаций, таких как игра призрака или змея. Модель также показала свою способность справляться со сценариями, требующими сложного планирования.

«Обучение LLM охватывает разнообразные языковые представления движений. GPT-4 точно переводит их в команды для Alter3», - объясняет команда.

Благодаря обширному пониманию человеческого поведения, GPT-4 может эффективно генерировать реалистичные планы поведения для гуманоидных роботов. В экспериментах команде также удалось наделить Alter3 эмоциональными выражениями, такими как смущение и радость. «Даже из текстов, которые не содержат явных эмоциональных указаний, LLM может выводить подходящие эмоции и отражать их в физических ответах Alter3», - подчеркивают исследователи.

Достижения в области робототехнических моделей

Применение базовых моделей в исследованиях робототехники быстро набирает популярность. Например, компания Figure, стоимостью 2.6 миллиарда долларов, использует модели OpenAI для интерпретации человеческих команд и выполнения соответствующих действий в реальном мире. С ростом мультимодальных возможностей в базовых моделях, робототехнические системы могут улучшить своё экологическое восприятие и принятие решений.

Alter3 является примером тренда, при котором стандартные базовые модели функционируют как модули рассуждений и планирования в системах управления роботами. Важно отметить, что она не полагается на адаптированную версию GPT-4, что делает её код применимым к другим гуманоидным роботам.

Проекты, такие как RT-2-X и OpenVLA, используют специализированные базовые модели, созданные для непосредственного генерирования команд для робототехники. Хотя эти модели часто обеспечивают более стабильные результаты и обобщают на различных задачах и в разных средах, они требуют более высокой технической экспертизы и затрат на разработку.

Тем не менее, одна критическая проблема, часто не учитываемая в этих инициативах, заключается в фундаментальных трудностях, связанных с обеспечением выполнения базовых задач роботами, включая захват объектов, поддержание равновесия и навигацию по окружающей среде. «Значительное количество работы ведётся на уровне, ниже того, что эти модели охватывают», - отметил учёный в области ИИ и робототехники Крис Пэкстон в недавнем интервью. «Это одна из сложных задач, отчасти из-за отсутствия существующих данных».

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles