Google DeepMindチームは、112億パラメータを持つ基盤的なワールドモデル「Genie」を発表しました。この革新的な技術は、単一の画像をインタラクティブなバーチャルワールドに変換することができ、人工知能がビデオゲームの領域に足を踏み入れる重要な瞬間を迎えています。
これまでのモデルとは異なり、Google Genieは200,000時間のラベルなしのインターネット動画から学習し、教師なしトレーニングを必要としません。その結果、豊かなバリエーションのシーンを生成することが可能となっています。また、シーン内の主要なキャラクターをアクションラベルなしで特定できるため、ユーザーとのインタラクションが可能となり、仮想環境の創造におけるその巨大な潜在能力を示しています。
Genieの能力の中心には、潜在アクションモデル、ビデオトークナイザー、自回帰ダイナミックモデルという3つの主要な要素があります。これらの要素が連携して、ユーザーインタラクションを豊かにし、エージェントが動画から見えない行動を模倣できるような潜在アクション空間を発展させています。
さらに、Genieは人間がデザインしたスケッチや実際の画像の取り込みを革新的にサポートしています。高度なテキストから画像生成モデルを活用することで、Genieは初期のフレームをインタラクティブなバーチャルユニバースに変換し、その使い勝手を大幅に向上させています。
Genieチームのリーダーであるティム・ロクタシュルは、Genieが人工汎用知能(AGI)の発展において重要なステップを表しており、インタラクティブな生成環境の風景を再構築し、未来のAIの進展の基盤を築く準備が整ったと強調しています。
要するに、Google DeepMindはGenieモデルを発表し、ビデオゲーム業界に革命的な変化をもたらしています。単一の画像からプレイ可能なバーチャルワールドを生成する能力は、ゲームにおけるAIの広範な統合が間近に迫っていることを示しています。