最近の言語モデルと視覚モデルの進展により、ロボットシステムはテキストや画像に基づいた指示に従う能力が大幅に向上しました。しかし、これらの手法には限界があります。スタンフォード大学とGoogle DeepMindの研究者たちによる新たな研究は、ロボットの指示にスケッチを使用することを提案しています。スケッチは、リアルな画像の混乱や自然言語の曖昧さからくる混乱を避けながら、ロボットがタスクを実行するのに役立つ豊富な空間情報を提供します。
RT-Sketchの導入
研究者たちは、ロボットを制御するためにスケッチを利用したRT-Sketchモデルを開発しました。このモデルは、標準的な条件下で言語および画像に基づくエージェントと同等のパフォーマンスを発揮し、言語や画像の指示が不十分な場面ではそれを上回ります。
スケッチの選択理由
言語は目標を伝えるためのシンプルな手段ですが、物体を配置するような正確な操作が求められるタスクには不便です。画像は目標を詳細に描写しますが、目標となる画像を取得するのは実用的ではないことが多いです。さらに、事前に記録された画像は過剰な詳細を持つことがあり、オーバーフィッティングや新しい環境への一般化の欠如を引き起こす可能性があります。
スタンフォード大学の博士課程学生で同研究の主著者であるプリヤ・サンダレサン氏は、「当初、ロボットがIKEAの設計図のような組み立てマニュアルを解釈し、必要な操作を実行できるようにすることを考案しました。言語は空間的なタスクに対して曖昧すぎることがよくあり、既存の画像が入手できないこともあります」と述べています。
チームは、スケッチがシンプルかつ情報豊富で、簡単に生成できることから選択しました。スケッチは、ピクセルレベルの詳細を必要とせずに空間的な配置を効果的に伝え、モデルがタスクに関連するオブジェクトを特定しやすくし、一般化能力を向上させます。
サンダレサン氏は、「スケッチは、ロボットに指示を出す際のより便利で表現力豊かな方法への重要なステップと考えています」と説明します。
RT-Sketchモデルの特長
RT-Sketchは、言語指示をロボットコマンドに変換するモデルであるRobotics Transformer 1 (RT-1)を基にしています。研究者たちは、このアーキテクチャをスケッチや画像などの視覚的目標を利用するように適応しました。
RT-Sketchのトレーニングには、80,000件のVRテレオペレーションタスク(物体の操作やキャビネットの操作など)のデータセットRT-1を使用しました。最初に、500の例を選択し、最終動画フレームから手描きのスケッチを生成しました。これらのスケッチと対応する動画フレームを使用して、画像をスケッチに変換する生成対抗ネットワーク(GAN)をトレーニングしました。
トレーニングと機能
GANはRT-Sketchモデルのトレーニング用にスケッチを生成し、異なる手描きスタイルを模倣するバリエーションで強化されました。運用時には、シーンの画像と希望するオブジェクト配置のラフスケッチを受け取り、ロボットが指定された目標を達成するためのコマンドのシーケンスを生成します。
サンダレサン氏は、「RT-Sketchは、詳細な口頭指示が煩雑になるような空間タスクや画像が利用できない場合に有益です」と述べています。例えば、夕食のテーブルを設定する際に「皿の隣に器を置く」という言葉は曖昧さを招く可能性がありますが、シンプルなスケッチは希望する配置を明確に示すことができます。
さらに、「RT-Sketchは、アイテムの箱出しや新しい空間での家具の配置、さらには複雑で多段階のタスク(洗濯物の折りたたみなど)にも役立つ可能性があります」とサンダレサン氏は付け加えました。
RT-Sketchの評価
研究者たちは、RT-Sketchをさまざまなシナリオでテストし、物体の移動、缶の取り扱い、引き出しの開閉など、6つの操作スキルを評価しました。モデルは、基本的な操作タスクにおいて既存の画像および言語ベースのモデルと同等のパフォーマンスを発揮し、目標の具体化が難しいシナリオでは言語ベースのモデルを上回りました。
サンダレサン氏は、「これは、スケッチが効果的なバランスを保っていることを示しています。視覚的な混乱から生じる混乱を回避しながら、必要な意味論的かつ空間的なコンテキストを保持しています」と指摘しました。
今後の展望
今後、研究者たちはスケッチのより広範な応用を探求し、言語や画像、人間のジェスチャーと組み合わせる可能性を検討しています。DeepMindは、多様なモダリティを使用したロボティクスモデルを持っており、RT-Sketchの発見はこれらのシステムを強化するかもしれません。スケッチが視覚的表現を超えた多様な可能性を秘めていることにも期待を寄せています。
サンダレサン氏は、「スケッチは矢印で動きを伝え、部分的なスケッチでサブゴールを表し、落書きで制約を示すことができ、まだ調査していない操作タスクに対して貴重な情報を提供します」と結論づけました。