最近、言語モデル(LLM)を活用した革新的なロボティクスアプリケーションの開発が進み、過去に不可能と考えられていたプロジェクトが増加しています。LLMやマルチモーダルモデルの力により、研究者たちは自然言語の指示を処理し、高度な推論を要する複雑なタスクを実行できるロボットを作成することができるようになっています。このLLMとロボティクスの交差点に対する関心の高まりは、ロボティクス関連のスタートアップを活性化させ、多くの企業が大きな資金を調達し、印象的なデモを披露しています。
LLMの目覚ましい進展が現実のアプリケーションに移行する中、私たちはロボティクスの新たな時代の入り口に立っているかもしれません。
知覚と推論のための言語モデル
従来のロボットシステムの構築には、計画や推論モジュールの開発に高度な技術が必要でした。このため、さまざまな方法で人々が指示を出す際に適応するユーザーフレンドリーなインターフェースの作成が難しいという課題がありました。しかし、LLMと視覚言語モデル(VLM)の登場は、ロボティクスエンジニアが既存のシステムを革新的に強化する手助けをしています。特に注目すべきプロジェクトは、Googleリサーチによる「SayCan」で、このプロジェクトはLLM内に埋め込まれた意味的な知識を利用してロボットにタスクを推論させ、適切な動作のシーケンスを決定する支援をしました。
「SayCanはロボット工学における最も影響力のある論文の一つです」とAIとロボティクスの研究科学者であるクリス・パクストン氏は話します。「そのモジュール設計により、異なるコンポーネントを統合して魅力的なデモを実現できるシステムを構築できます。」
SayCan以降、研究者たちはロボティクス内で言語モデルと視覚モデルの応用を多様に探求し、顕著な進展を遂げています。一般的なLLMやVLMを利用するプロジェクトや、特定のロボットタスクに応じて既存のモデルをカスタマイズするプロジェクトが存在しています。
「大規模な言語モデルや視覚モデルを使用することで、知覚や推論が格段に容易になりました」とパクストン氏は述べています。「これにより、多くのロボティクスタスクがかつてないほど達成可能になりました。」
既存の能力の組み合わせ
従来のロボットシステムの大きな制約はその制御メカニズムにあります。チームは個別の技能(ドアを開ける、物を操作する等)をロボットに訓練することができますが、これらの技能を組み合わせて複雑なタスクを実行することは難しく、厳格な指示が必要なシステムに繋がる場合が多いです。LCMやVLMは、ロボットが曖昧な指示を解釈し、それに応じたタスクシーケンスを能力に合わせてマッピングできるようにします。興味深いことに、多くの高度なモデルは大規模な再訓練を行わずにこれを達成することができます。
「大規模な言語モデルを使うことで、異なる技能をスムーズに接続し、その適用について推論できます」とパクストン氏は説明しました。「最近の視覚言語モデルであるGPT-4Vのように、これらのシステムはさまざまなアプリケーションで効果的に協力することができます。」
例えば、トロント大学、Google DeepMind、Hoku Labsが共同開発した技術「GenEM」は、LLM内の包括的な社会的文脈を活用して豊かなロボット行動を生成します。GPT-4を用いることで、GenEMはロボットに人の存在を認識してうなずくといったコンテキストを理解させ、その意図に基づいた行動を実行可能にします。
もう一つの例は、Metaとニューヨーク大学が開発した「OK-Robot」で、VLMを動きの計画や物体Manipulationモジュールと統合して、未知の環境でのピック・アンド・ドロップタスクを実行します。
これらの進展の中で、いくつかのロボティクススタートアップは成長しています。カリフォルニアを拠点とするロボティクス企業Figureは、視覚と言語モデルを利用したヒューマノイドロボットの開発のために6.75億ドルの資金を調達しました。同社のロボットは、OpenAIのモデルを活用して指示を処理し、戦略的な行動計画を行っています。
ただし、LLMやVLMが大きな課題に対処できるとしても、ロボティクスチームはまだ物をつかむ、障害物を回避する、多様な環境での移動などの基本技能に関するシステムを構築する必要があります。「これらのモデルがまだ扱えない基礎的な作業がかなり行われています」とパクストン氏は言います。「この複雑さはデータの必要性を強調し、多くの企業が生成に取り組んでいます。」
専門的な基盤モデル
別の有望なアプローチは、事前に訓練されたモデルに組み込まれた膨大な知識を基に、ロボティクス専用の基盤モデルを作成することです。この分野の大きな取り組みの一つが、GoogleのRT-2です。これは、知覚データと言語指示を処理し、ロボット用の実行可能なコマンドを生成する視覚言語アクション(VLA)モデルです。
最近、Google DeepMindはRT-2の強化版であるRT-X-2を発表しました。これは、トレーニングデータセットに含まれないタスクを実行しながら、さまざまなロボットの形状に適応できる能力を持っています。さらに、DeepMindとスタンフォード大学の共同プロジェクトであるRT-Sketchは、ラフスケッチを実行可能なロボットアクションプランに変換します。
「これらのモデルは、多数のタスクを処理できる広範なポリシーとして機能する新しいアプローチを象徴しています」とパクストン氏は述べました。「これはエンドツーエンドの学習によって推進されている興味深い方向であり、ロボットがカメラフィードから行動を引き出すことが可能です。」
ロボティクス向け基盤モデルは、商業分野にも徐々に進出しています。Covariantは最近、テキスト、画像、動画、ロボット行動など多様な入力データで訓練された80億パラメータのトランスフォーマーモデル「RFM-1」を紹介しました。これはさまざまなロボティクスアプリケーション向けに汎用性のある基盤モデルの作成を目指しています。
一方、Nvidia GTCで紹介されたプロジェクトGR00Tは、ヒューマノイドロボットがテキスト、音声、動画などの入力を処理し、それを特定の行動に変換することを目指しています。
言語モデルの完全なポテンシャルはまだ十分に引き出されておらず、ロボティクス研究をさらに前進させ続けるでしょう。LLMのさらなる進化により、ロボティクス分野の画期的な革新が期待されます。