最新技術のヒューマノイドロボット「Alter3」とは?GPT-4搭載の最前線を探る

東京大学とAlternative Machineの研究者たちは、Alter3という人型ロボットシステムを開発しました。このシステムは、自然言語の指示をロボットの動作に直接変換することができます。GPT-4のような大規模言語モデル(LLM)に組み込まれた豊富な知識を活用することで、Alter3は自撮りを行ったり、ゴーストを模倣したりといった複雑なタスクを遂行できます。この革新は、基盤モデルとロボットシステムの統合において重要な進展を示しています。商用のスケーラブルなソリューションはまだ先ですが、最近の進歩はロボティクス研究に新たな活力を与え、大きな期待が寄せられています。

言語をロボットの動作に変換する

Alter3は、GPT-4をコアモデルとして、ロボットが反応すべき動作やシナリオを記述した自然言語命令を処理します。このモデルは「エージェントフレームワーク」を用いて、目標達成のために必要な一連のアクションステップを考案します。最初にそれはプランナーとして働き、所定のタスクに必要な手順を決定します。

Alter3はさまざまなGPT-4のプロンプト形式を利用して指示を分析し、ロボットのコマンドにマッピングします。GPT-4はAlter3のプログラミングコマンドに関する具体的な学習を持たないため、研究者たちはコンテキスト内学習を活用して出力をロボットのAPIに適応させます。これには、コマンドのリストとその使用例を提供することが含まれ、モデルが各アクションステップをロボットの実行可能なAPIコマンドに変換できるようにしています。「以前は、43の軸を特定の順序で手動操作して、人間のポーズを再現したり、ティーサーブやチェスを模擬したりしていました。LLMのおかげで、この手間のかかるプロセスから解放されました」と研究者たちは述べています。

人間のフィードバックの取り入れ

言語が物理的な動きを詳細に説明する際に不正確である可能性があるため、モデルが生成するアクションシーケンスは、必ずしも意図したロボットの動作を生じるわけではありません。これに対処するため、研究者たちは、ユーザーが「腕をもう少し上げて」といったフィードバックを行い、コマンドを改良できるメカニズムを統合しました。これらの修正は別のGPT-4エージェントによって処理され、コードが調整され、ロボット実行のために改訂されたアクションシーケンスが返されます。強化されたプランとコードは、将来的な利用のために保存されます。

人間のフィードバックと記憶の統合は、Alter3のパフォーマンスを大幅に向上させます。研究者たちは、Alter3を自撮りやティーを飲むといった簡単なタスクから、ゴーストや蛇のような複雑な模倣まで、さまざまなタスクに対して評価しました。また、このモデルは、複雑な計画が必要なシナリオを管理する能力も実証しています。「LLMのトレーニングは、動きの多様な言語表現を含んでいます。GPT-4はこれらをAlter3のコマンドに正確に変換します」とチームは説明しています。

GPT-4は人間の行動についての広範な理解を持っており、人型ロボットのリアルな行動計画を効果的に生成できます。実験でも、Alter3に恥ずかしさや喜びといった感情表現を持たせることに成功しました。「感情の手がかりが明示されていないテキストからでも、LLMは適切な感情を推測し、Alter3の物理的な反応に反映させることができます」と研究者たちは強調しています。

ロボットモデルの進展

ロボティクス研究における基盤モデルの採用は急速に進んでいます。例えば、評価額26億ドルのFigureは、OpenAIのモデルを用いて人間の指示を解釈し、対応する現実世界の動作を実行しています。基盤モデルのマルチモーダル機能の向上により、ロボットシステムは環境認識や意思決定を強化することが期待されています。

Alter3は、オフ・ザ・シェルフの基盤モデルがロボット制御システム内で推論および計画モジュールとして機能するトレンドを象徴しています。重要なのは、Alter3がGPT-4のファインチューニング版を使用せず、そのコードが他の人型ロボットにも適用可能であることです。

RT-2-XやOpenVLAのようなプロジェクトは、ロボティクスコマンドを直接生成するために設計された特化型基盤モデルを利用しています。これらのモデルは、より安定した結果をもたらし、多様なタスクと環境に対して一般化しますが、高度な技術専門知識と開発コストを必要とします。

それでも、これらの取り組みでしばしば見落とされる重要な側面は、物体をつかむ、バランスを保つ、環境をナビゲートするなどの基本的なタスクをロボットが実行できるようにするという基盤的な課題です。「これらのモデルが扱うレベル以下でも多くの作業が行われている」と、AIおよびロボティクスの科学者クリス・パクストンは最近のインタビューで語っています。「それは非常に挑戦的な作業であり、既存のデータが不足しているためです。」

Most people like

Find AI tools in YBX