競争が激化する生成AIの分野で、Metaは革新的なマルチモーダルモデル「Chameleon」のプレビューを発表しました。従来のモデルが異なるモダリティの要素を組み合わせるのに対し、Chameleonはマルチモーダリティのためにネイティブに構築されています。
現在、Chameleonのモデルは一般には公開されていませんが、初期の実験結果から、Chameleonは画像キャプショニングや視覚的質問応答(VQA)などのタスクで優れた性能を示し、テキスト専用タスクでも競争力を維持しています。
Chameleonのアーキテクチャ
Chameleonは、「早期融合トークンベースの混合モーダル」アーキテクチャを採用しており、この最先端の設計は、画像、テキスト、コードなどを交互に処理します。画像を離散トークンに変換し、言語モデルが単語を扱うのと同様に、テキスト、コード、画像トークンを統合した統一語彙を用います。この統一されたトークンスペースにより、Chameleonはテキストと画像の両方を含むシーケンスをシームレスに処理できます。
研究者たちは、最も比較できるモデルはGoogleのGeminiであると指摘していますが、Geminiが生成時に別々の画像デコーダーを使用するのに対し、Chameleonはエンドツーエンドモデルとしてトークンを同時に処理・生成します。この統一トークンスペースにより、Chameleonはモダリティ特有のコンポーネントなしで、テキストと画像の交互のシーケンスを生成可能です。
早期融合の課題克服
早期融合には利点がある一方で、モデルのトレーニングやスケーリングにおいて重要な課題を抱えています。これらの問題に対処するため、研究チームはさまざまなアーキテクチャの修正とトレーニング技術を採用しました。研究論文では、様々な実験とそれがモデルのパフォーマンスに与えた影響を詳述しています。
Chameleonは、テキスト、画像-テキストペア、交互に入れ替えたシーケンスを含む4.4兆トークンのデータセットを利用した二段階のトレーニングプロセスを経ています。このトレーニングには、70億のパラメータと340億のパラメータを持つChameleonが使用され、Nvidia A100 80GB GPUリソースの500万時間以上で実行されました。
Chameleonのパフォーマンス
論文で公開された結果によると、Chameleonはテキスト専用およびマルチモーダルのタスクで非常に優れた性能を発揮しています。視覚的質問応答(VQA)や画像キャプショニングのベンチマークで、Chameleon-34BはFlamingo、IDEFICS、Llava-1.5を超える最先端の結果を達成しました。Chameleonは、従来の学習例やモデルサイズが大幅に少なくても高いパフォーマンスを示しています。
マルチモーダルモデルが単一モダリティタスクに苦戦する中で、Chameleonはテキスト専用のベンチマークでも競争力を維持し、常識推論や読解力タスクではMixtral 8x7BやGemini-Proと同等の性能を示しています。特に、交互に配置されたテキストと画像を必要とするプロンプトでの高度な混合モーダル推論と生成が可能であり、ユーザー評価でもChameleonが生成したマルチモーダル文書が好まれています。
今後の展望
最近、OpenAIとGoogleが新しいマルチモーダルモデルを発表しましたが、詳細はまだ明らかではありません。Metaが透明性のあるアプローチを維持し、Chameleonのモデルを公開すれば、プライベートモデルに代わるオープンな選択肢となる可能性があります。
早期融合のアプローチは、今後の研究にも新たな道を開くものであり、特にモダリティの統合が進む中で注目されます。ロボティクスのスタートアップなどは、言語モデルとロボティクス制御システムの統合に取り組んでおり、早期融合がロボティクス基盤モデルに与える影響は注目に値します。
まとめると、Chameleonは、柔軟にマルチモーダルコンテンツを推論し生成できる統一基盤モデルの実現に向けた大きな進展を示しています。