ロンドン帝国大学とDeepMindが発表：最小限のデータで学習するエンボディードエージェントの革新

Home AIニュースロンドン帝国大学とDeepMindが発表：最小限のデータで学習するエンボディードエージェントの革新

物理世界とインタラクションが可能なAIエージェントの革新

物理世界とインタラクションを行うことができる具現化AIエージェントは、幅広い応用の可能性を秘めています。しかし、その発展には重大な障壁が一つあります。それは、トレーニングデータの不足です。

この課題を克服するために、ロンドン大学インペリアル校とGoogle DeepMindの研究者たちは、Diffusion Augmented Agents（DAAG）フレームワークを提案しました。この革新的アプローチは、大規模言語モデル（LLM）、ビジョン言語モデル（VLM）、および拡散モデルの能力を活用し、具現化エージェントの学習効率と転移学習能力を向上させることを目指しています。

具現化エージェントにおけるデータ効率性の重要性

最近のLLMやVLMの進展は、ロボティクスや具現化AIに対する期待を高めています。これらのモデルは、インターネットから収集された膨大なテキストや画像データセットを用いてトレーニングされますが、具現化AIシステムは物理的な相互作用から学ぶ必要があります。

物理的環境はデジタル空間よりも遥かに複雑で予測不可能です。加えて、ロボットや他の具現化AIは物理センサーやアクチュエーターに依存しており、これらは時に遅く、ノイズに影響され、故障しやすいものです。

研究者たちは、この課題を克服する鍵は、エージェントの既存のデータと経験を最適に活用することにあると主張しています。「具現化エージェントは過去の経験を活用し、効果的に探索し、タスク間で知識を転移させることにより、データ効率を向上させることができると仮定します」と述べています。

DAAGとは何か？

Diffusion Augmented Agent (DAAG)フレームワークは、過去の経験を活用し、合成データを生成することでエージェントがタスクをより効果的に学習できるよう設計されています。この研究は、エージェントが外部の報酬がなくても自律的にサブゴールを設定し評価できるようにし、以前の経験を再利用して新しいタスクでの学習を加速させることを目指しています。

DAAGはマルコフ決定過程（MDP）内で機能します。各エピソードの開始時に、エージェントはタスクの指示を受け取り、環境を観察し、これに基づいた行動を取ります。エージェントには、現在の経験用のタスク固有のバッファと、タスクや結果に関係なく全ての過去の経験を保持する「オフラインライフロングバッファ」が2つのメモリバッファが備わっています。

DAAGは、LLM、VLM、拡散モデルの強みを組み合わせることで、推論、環境分析、新しい目標の効率的な学習を実現します。LLMは中央コントローラーとして機能し、新しいタスク指示を解釈し、サブゴールに分解、VLMや拡散モデルと協力して目標達成を図ります。

過去の経験を最大限に活用するために、DAAGは「後知恵経験増幅（HEA）」と呼ばれる手法を取り入れています。VLMは経験バッファ内のビジュアル観察を処理し、望ましいサブゴールと比較することで、エージェントの記憶を強化します。関連する経験が不在の場合、拡散モデルが合成データを生成し、エージェントが物理的にインタラクトせずに探索できるようにサポートします。

「HEAを通じて、エージェントのバッファに保存される成功エピソードの数を合成的に増やすことで、データの再利用を促進し、特に複数のタスクを連続して学習する際の効率を大幅に向上させます」と研究者たちは説明しています。彼らは、DAAGとHEAを人間の監視なしに自律的に作動するパイプラインとして定義し、信頼性の高い強化観察の生成に幾何学的および時間的一貫性を活用していると述べています。

DAAGの利点は？

研究者たちは、複数のベンチマークやシミュレーション環境での評価において、DAAGがナビゲーションや物体操作といったタスクにおいて、従来の強化学習システムを大幅に上回る結果を出したことを発見しました。特に、DAAGを活用したエージェントは、明示的な報酬がなくても目標を達成し、目的により早く到達し、非DAAGエージェントと比べて環境との相互作用が少なくて済みました。

このフレームワークは、以前のタスクからデータを再利用することに優れており、新しい目標の迅速な学習を促進します。タスク間の知識を転移する能力は、継続的に学習し適応するエージェントの育成において極めて重要です。DAAGによる転移学習の最適化は、より弾力性があり柔軟なロボットや具現化AIシステムの実現への道を開きます。

「この研究は、ロボティクスの学習におけるデータ不足の解決や、より包括的な能力を持つエージェントの開発に向けた有望な道を示しています」と研究者たちは結論づけています。

MetaのVFusion3D: AI駆動の3Dコンテンツ制作を革新する

LLMへのアクセス制限？Snowflakeがクロスリージョン推論を発表し、利用可能性を向上