基盤モデルとロボティクス:OpenVLAの台頭
基盤モデルは、視覚・言語・アクション(VLA)モデルの開発を促進することで、ロボティクスの進歩に大きく貢献しています。これらのモデルは、初期のトレーニングデータを超えたオブジェクト、シーン、タスクへの一般化を実現可能ですが、閉じた性質や新しい環境への適応に関するベストプラクティスの不足から、採用が限られています。
OpenVLAの紹介
この課題を解決するため、スタンフォード大学、UCバークレー、トヨタ研究所、GoogleDeepMindなどの研究者たちは、さまざまな実世界のロボットデモンストレーションでトレーニングされたオープンソースのVLAモデル「OpenVLA」を発表しました。OpenVLAは、ロボティクスのタスクにおいて他のモデルを上回るだけでなく、多様なオブジェクトを扱うマルチタスク環境でのパフォーマンスを向上させるための簡単なファインチューニングが可能です。効率性を重視し、最適化技術を活用することで、消費者向けGPUでも最小限のファインチューニングコストで運用できます。
視覚・言語・アクションモデルの重要性
従来のロボティクス操作手法は、トレーニングシナリオを超えた一般化に苦しむことが多く、気を散らす要素や見慣れないオブジェクトに対して無力です。微妙に変更されたタスク指示に適応することも困難です。一方で、大規模言語モデル(LLM)や視覚言語モデル(VLM)は、インターネット規模の事前トレーニングデータセットに基づく広範な情報を持ち、一般化に優れています。最近、研究所ではLLMとVLMをロボットポリシーの開発における基盤要素として統合し始めています。
現在のVLAの最大の課題は、閉じたアーキテクチャによるトレーニングの透明性の欠如と、新しいロボットやタスクに適応するための標準的な手法が存在しないことです。研究者たちは、効果的な適応を促進するために、オープンソースの一般化されたVLAの必要性を強調しています。
OpenVLAのアーキテクチャ
OpenVLAは、70億のパラメータを持ち、Prismatic-7Bという視覚・言語モデルを基にしています。画像特徴抽出用の二部構成のビジュアルエンコーダーと、指示処理のためのLLaMA-2 7B言語モデルを組み合わせています。Open-X Embodimentデータセットから970,000のロボット操作軌跡を用いてファインチューニングされ、様々なロボットタスクと環境に対応することができ、特定のロボットアクションにマッピングされたアクショントークンを生成します。
OpenVLAは自然言語の指示と入力画像を受け取り、両者を推論することで「テーブルを拭く」といったタスクを完了するために必要な最適なアクションシーケンスを決定します。驚くべきことに、従来のウィドウXおよびGoogleロボットの体現のために最先端とされていた55億パラメータのRT-2-Xモデルを上回るパフォーマンスを発揮します。
ファインチューニングと効率性
研究者たちは、7つの操作タスクにわたる効率的なファインチューニング戦略を探求し、ファインチューニングされたOpenVLAポリシーが事前トレーニングされた代替手段を上回ることを示しました。特に、言語指示を多様なオブジェクトを用いたマルチタスク行動に変換する際に、その優位性が際立っています。OpenVLAは全てのテストしたタスクで50%以上の成功率を誇り、多様なシナリオでの模倣学習において信頼できる選択肢として位置付けられています。
アクセシビリティと効率性を追求する中で、チームはローレンケーションアダプテーション(LoRA)を用いてタスク別の調整を行い、単一のA100 GPUで10〜15時間内に実施可能としました。また、モデルの量子化により、サイズがさらに小さくなり、性能を維持しながら消費者向けGPUでの展開が可能となります。
OpenVLAのオープンソース化
研究者たちは、OpenVLAモデル全体をオープンソースとして公開し、展開やファインチューニングのためのノートブックとコードも提供しています。これにより、ロボティクスにおけるVLAのさらなる探求と適応が促進されることを期待しています。このライブラリは、個々のGPUでのファインチューニングをサポートし、マルチノードGPUクラスタでの十億パラメータVLAのトレーニングを調整することができます。
OpenVLAの将来的な開発では、複数の画像および上肢の入力、観察履歴を取り入れることが目指されています。また、画像とテキストデータを交互に施行したVLMを利用することで、VLAのファインチューニングの柔軟性を高める可能性があります。
OpenVLAにより、ロボティクスコミュニティは大きな進歩を遂げる直前にあり、VLAモデルの多様なアプリケーションへのアクセスと適応が容易になることが期待されています。