最近のビジョンと言語のモデル(VLM)の進展により、自然言語のクエリを視覚シーン内のオブジェクトに合わせることが可能になっています。研究者たちは、これらのモデルをロボティクスシステムに統合する方法を模索していますが、ロボットはしばしば能力の一般化に苦しんでいます。
Meta AIとニューヨーク大学の研究者による画期的な論文では、OK-Robotと呼ばれるオープンナレッジベースのフレームワークが紹介されています。この革新的なシステムは、追加訓練なしで、未知の環境でのピックアンドドロップ操作を実行するために、事前に訓練された機械学習(ML)モデルを組み合わせています。
現在のロボティクスシステムの課題
ほとんどのロボットシステムは、過去に遭遇した環境向けに設計されているため、新しい設定—特に家庭のような非構造的な空間—への適応が制限されています。VLMが言語プロンプトと視覚オブジェクトを結びつける能力が向上し、ロボットのナビゲーションや把握能力も改善されているものの、これらの技術を統合することは未だに最適な性能を発揮できていません。
研究者たちは、「この問題を前進させるには、VLMとロボティクスの基礎を統合しつつ、VLMおよびロボティクスコミュニティからの新しいモデルを柔軟に取り入れられる、注意深く洗練されたフレームワークが必要です」と述べています。
OK-Robotの概要
OK-Robotは、最先端のVLMを頑強なロボティクスメカニズムと統合し、未知の環境でピックアンドドロップのタスクを実行します。広範な公開データセットで訓練されたモデルを利用しています。
このフレームワークは、オープンボキャブラリーのオブジェクトナビゲーションモジュール、RGB-D把握モジュール、およびドロップヒューリスティックスystemの3つの主要なサブシステムで構成されています。新しい空間に入る際、OK-Robotは手動スキャンを必要とし、iPhoneアプリを使ってRGB-D画像の系列を取得することで簡単に行えます。これらの画像とカメラの位置情報が組み合わさり、3D環境マップが作成されます。
各画像はビジョントランスフォーマ(ViT)モデルを用いて処理され、オブジェクト情報が抽出されます。このデータは環境コンテキストとともにセマンティックオブジェクトメモリモジュールに供給され、自然言語クエリに応じたオブジェクトの取得が可能になります。メモリは音声プロンプトの埋め込みを計算し、最も近いセマンティック表現と一致させます。ナビゲーションアルゴリズムは、オブジェクトへの最適な経路を描画し、ロボットが安全にオブジェクトを把握できるスペースを確保します。
最後に、ロボットはRGB-Dカメラを使用し、オブジェクトセグメンテーションモデルと事前訓練された把握モデルを駆使してアイテムを取り上げます。ドロップオフ地点へのナビゲーションにも同様の手法が適用されます。このシステムにより、ロボットはさまざまなオブジェクトタイプに対して最も適切な把持を決定し、平坦ではない目的地でも対処できます。「全く新しい環境に入って自律的な操作を始めるまで、我々のシステムは最初のピックアンドドロップタスクを完了するのに平均して10分未満です」と研究者たちは報告しています。
テストと結果
研究者たちは10軒の家庭でOK-Robotを評価し、171件のピックアンドドロップ実験を行いました。OK-Robotは58%の成功率で完全な操作を完了し、これらの環境に対しては明示的に訓練されていないゼロショット能力を示しました。入力クエリを改善し、スペースを整理し、対立するオブジェクトを最小限にすることで、成功率は82%を超えることができます。
しかし、OK-Robotにはいくつかの制限もあります。自然言語プロンプトと正しいオブジェクトの間にミスアラインが生じることがあり、一部の把持が難しい場合やハードウェアの制約も存在します。さらに、オブジェクトメモリモジュールはスキャン後に静的な状態になるため、ロボットがオブジェクトの位置や可用性の変化に適応することはできません。
これらの課題にもかかわらず、OK-Robotプロジェクトは重要な洞察を提供します。第一に、現在のオープンボキャブラリーVLMは、多様な実世界のオブジェクトを特定し、それにゼロショット学習でナビゲートする能力を持つことを示しています。さらに、大規模なデータセットで事前訓練された専門的なロボットモデルが、未知の環境でオープンボキャブラリーの把持をシームレスに進めることを確認しています。最後に、モデルを組み合わせてさらなる訓練なしでゼロショットタスクを達成する可能性に光を当てており、この新興分野のさらなる進展への道を開いています。