ロボティクススタートアップの1Xテクノロジーズは、ロボットシステムのトレーニング効率を向上させる革新的な生成モデルを発表しました。同社の最新のブログポストによれば、このモデルはロボティクスにおける重要な課題である「世界モデル」の作成に取り組んでおり、ロボットの動作に対する環境の変化を正確に予測することを目指しています。
現実の物理空間でロボットを直接トレーニングすることはコストとリスクを伴うため、多くのロボティクス研究者は、実際の運用前にモデルを開発するためにシミュレーション環境に依存しています。しかし、シミュレーションと実際の物理環境との間には大きな乖離がある場合があり、これは重大な課題となります。
「ロボティクス研究者は、実世界の‘デジタルツイン’として機能する手動で設計されたシーンを作成し、ダイナミクスのシミュレーションにはMuJoCoやBullet、Isaacといった剛体シミュレーターを使用しています」と、1XテクノロジーズのAI担当副社長エリック・ジャンは説明します。「しかし、これらのデジタルツインには物理や幾何学に関する不正確さが含まれることがあり、これが‘シム2リアルギャップ’を引き起こす原因となります。たとえば、オンラインでダウンロードしたドアモデルは、テスト中に使用されるドアと同じばねの硬さを再現しないことがあります。」
ジェネレーティブワールドモデル
このギャップを克服するために、1Xの革新的なモデルは、ロボットから直接収集された生のセンサーデータを使って、現実のダイナミクスをシミュレートする方法を学びます。会社のヒューマノイドロボットが家庭やオフィス環境でさまざまな移動操作タスクを実行するために、数千時間に及ぶ動画とアクチュエーターデータを分析しています。
「私たちは、注釈付けとフィルタリングのためにアンドロイドオペレーターのチームをサポートを受けながら、1Xオフィスからデータを集めました」とジャンは述べました。「現実世界の相互作用から直接シミュレーターを構築することで、相互作用データのプールが拡大するごとに、実際のシナリオにより密接に一致するダイナミクスを実現できます。」
開発された世界モデルは、物体の相互作用をシミュレートする能力に優れています。会社が共有した動画では、ロボットが箱をつかみ、さまざまな物体(硬いものからカーテンや洗濯物のような変形可能なものまで)と相互作用し、障害物を避けたり人との安全距離を保ったりする複雑なダイナミクスを考慮する様子が示されています。
ジェネレーティブモデルの課題
しかし、このモデルは環境の変化による課題にも直面しています。すべてのシミュレーターと同様に、運用環境が進化するにつれて更新が必要です。しかし、研究者たちは、このモデルの学習アプローチが更新を容易にすると考えています。
「もしトレーニングデータが古くなると、生成モデルはシム2リアルギャップを経験することがあります」とジャンは認めました。「目標は、手動での調整なしに新しい現実のデータで継続的に洗練される学習シミュレーターを作成することです。」
1Xのアプローチは、OpenAIのSoraやRunwayなどの進展からインスピレーションを受けており、生成モデルが適切なトレーニングデータを持つことで時間を通じて一貫性を維持できることを示しています。
多くのモデルは通常、テキスト入力からビデオを生成しますが、1Xは生成段階でダイナミックに応答する生成システムに焦点を当てており、イノベーションの最前線に立っています。例えば、Googleの研究者たちは、DOOMのようなインタラクティブな環境をシミュレートできる生成モデルをトレーニングするために類似の技術を使用しています。
進展がある一方で、課題も残っています。明確に定義されたワールドシミュレーターが存在しない場合、非現実的なシナリオが生じることがあります。たとえば、モデルは吊り下げられた物体が落ちないと予測したり、フレーム間で物体が消失する原因となったりすることがあります。これらの問題に対処するには、継続的な努力が必要です。
解決策の一つは、モデルのトレーニングを強化するためにデータを継続的に蓄積することです。「最近の生成的ビデオモデリングの進歩は驚くべきもので、OpenAI Soraからの結果は、データと計算能力を拡張することで大幅な改善が得られることを示しています」とジャンは述べました。
1Xは、モデルや重みを公開し、モデルの改良に貢献する参加者に賞金を提供するコンペを計画して、コミュニティの積極的な関与を促しています。
「私たちは、世界モデリングやビデオ生成のさまざまな手法を探求しています」とジャンは述べ、継続的な革新へのコミットメントを強調しました。