人間は目標や意図を伝えるために表現的な行動を頻繁に使用します。たとえば、同僚に挨拶するためにうなずいたり、否定を示すために頭を振ったり、混雑した場所で「すみません」と言って通り道を作ったりします。人間との円滑なインタラクションを実現するために、モバイルロボットも同様の表現行動を示す必要があります。しかし、この課題はロボティクスにおいて依然として重要であり、既存の解決策はしばしば柔軟性や適応性に欠けています。
トロント大学、Google DeepMind、Hoku Labsの研究者たちは、革新的な研究で大規模言語モデル(LLM)の豊富な社会的文脈を活用し、ロボットが表現的な行動を実行できる新たなアプローチ「GenEM」を発表しました。さまざまなプロンプト手法を用いることで、GenEMはロボットが環境を解釈し、人間のような表現を効果的に再現することを可能にします。
ロボティクスにおける表現的行動
これまで、ロボットの表現行動を作成するには、ルールやテンプレートに基づくシステムが依存していました。これらは各ロボットや環境ごとに多くの手動入力を必要とし、変更や適応を行うには extensive に再プログラミングが求められていました。最近の技術では、より柔軟性のあるデータ駆動型のアプローチが採用されていますが、これらはしばしば特定のロボットの相互作用に特化したデータセットを必要とします。
GenEMは、このアプローチを再構築し、LLM内の豊富な知識を利用して動的に表現行動を生成します。これにより、従来のモデル訓練や複雑なルールセットが不要になります。たとえば、LLMは、さまざまな社会的文脈におけるアイコンタクトやうなずきの重要性を認識することができます。
「私たちの重要な洞察は、LLMから得られる豊かな社会的文脈を活用して、適応可能で組み合わせ可能な表現行動を創造することです」と研究者は説明します。
ジェネレーティブ・エクスプレッシブ・モーション(GenEM)
GenEMは、一連のLLMエージェントを使って、自然言語のコマンドに基づいて自律的に表現的なロボット行動を生成します。それぞれのエージェントは、社会的文脈を考慮し、これらの行動をロボットが実行できるAPIコールに変換します。
「GenEMは、ロボットの機能(スピーチや身体の動きなど)を利用して、意図を明確に表現するマルチモーダルな行動を生み出すことができます」と研究者は述べます。「GenEMの最大の特徴の一つは、実際の人間のフィードバックに適応し、反復的な改善と新たな表現行動の生成を可能にする点です」。
GenEMのワークフローは、自然言語の指示から始まります。「うなずいて」といった表現行動を指定するか、「通り過ぎる人が手を振る」といった社会的シナリオを設定します。最初に、LLMは思考の連鎖を使用して、人間の応答の可能性を示します。次に、別のLLMエージェントがロボットの利用可能な機能に基づいて逐次的なガイドに翻訳し、頭を傾けたり特定の光パターンをトリガーしたりする行動を導きます。
続いて、手順に従った指示が実行可能なコードに変換され、ロボットのAPIコマンドが使用されます。さらに、オプションとして人間のフィードバックが組み込まれ、行動が洗練されます。これは、LLMを訓練することなく行うことができ、ロボットの仕様に基づいてプロンプトの調整が必要です。
GenEMのテスト
研究者たちは、ユーザーフィードバックを取り入れたGenEMのバリエーションと取り入れないバリエーションを、プロのアニメーターが作成したスクリプト行動と比較しました。コンテキスト推論と表現行動生成にはOpenAIのGPT-4を使用し、結果に対するユーザーの反応を調査しました。結果は、ユーザーがGenEM生成の行動をプロのアニメーターの行動と同等に理解できると一般的に感じたことを示しています。さらに、GenEMのモジュラーで多段階の方法は、従来の単一LLMアプローチを大きく上回るものでした。
重要なのは、GenEMのプロンプトベースの設計がすべてのロボットタイプに適応可能であることです。特別なデータセットを訓練に必要とせず、LLMの推論を効果的に利用して、シンプルなロボットの動作から複雑な表現行動を作成します。
「私たちのフレームワークは、文脈学習や少数のプロンプトを通じて表現行動を迅速に生成し、以前の方法で見られたキュレーションされたデータセットや複雑なルール作成の必要性を大幅に削減します」と研究者たちは結論付けます。
GenEMはまだ初期段階にあり、主に単一のインタラクティブなシナリオや限られた行動空間でテストされています。より多様な基本的な動作を持つロボットでの探求の可能性があり、大規模言語モデルはこれらの能力をさらに向上させることが期待されています。
「私たちのアプローチは、柔軟なフレームワークを提供し、適応可能で組み合わせ可能な表現的動作を生成する力を大規模言語モデルの力を活用しています」と研究者たちは締めくくります。