Metaが発表したカメレオン：AI統合を革新する最先端のマルチモーダルモデル

Home AIニュース Metaが発表したカメレオン：AI統合を革新する最先端のマルチモーダルモデル

競争が激化する生成AIの分野で、Metaは革新的なマルチモーダルモデル「Chameleon」のプレビューを発表しました。従来のモデルが異なるモダリティの要素を組み合わせるのに対し、Chameleonはマルチモーダリティのためにネイティブに構築されています。

現在、Chameleonのモデルは一般には公開されていませんが、初期の実験結果から、Chameleonは画像キャプショニングや視覚的質問応答（VQA）などのタスクで優れた性能を示し、テキスト専用タスクでも競争力を維持しています。

Chameleonのアーキテクチャ

Chameleonは、「早期融合トークンベースの混合モーダル」アーキテクチャを採用しており、この最先端の設計は、画像、テキスト、コードなどを交互に処理します。画像を離散トークンに変換し、言語モデルが単語を扱うのと同様に、テキスト、コード、画像トークンを統合した統一語彙を用います。この統一されたトークンスペースにより、Chameleonはテキストと画像の両方を含むシーケンスをシームレスに処理できます。

研究者たちは、最も比較できるモデルはGoogleのGeminiであると指摘していますが、Geminiが生成時に別々の画像デコーダーを使用するのに対し、Chameleonはエンドツーエンドモデルとしてトークンを同時に処理・生成します。この統一トークンスペースにより、Chameleonはモダリティ特有のコンポーネントなしで、テキストと画像の交互のシーケンスを生成可能です。

早期融合の課題克服

早期融合には利点がある一方で、モデルのトレーニングやスケーリングにおいて重要な課題を抱えています。これらの問題に対処するため、研究チームはさまざまなアーキテクチャの修正とトレーニング技術を採用しました。研究論文では、様々な実験とそれがモデルのパフォーマンスに与えた影響を詳述しています。

Chameleonは、テキスト、画像-テキストペア、交互に入れ替えたシーケンスを含む4.4兆トークンのデータセットを利用した二段階のトレーニングプロセスを経ています。このトレーニングには、70億のパラメータと340億のパラメータを持つChameleonが使用され、Nvidia A100 80GB GPUリソースの500万時間以上で実行されました。

Chameleonのパフォーマンス

論文で公開された結果によると、Chameleonはテキスト専用およびマルチモーダルのタスクで非常に優れた性能を発揮しています。視覚的質問応答（VQA）や画像キャプショニングのベンチマークで、Chameleon-34BはFlamingo、IDEFICS、Llava-1.5を超える最先端の結果を達成しました。Chameleonは、従来の学習例やモデルサイズが大幅に少なくても高いパフォーマンスを示しています。

マルチモーダルモデルが単一モダリティタスクに苦戦する中で、Chameleonはテキスト専用のベンチマークでも競争力を維持し、常識推論や読解力タスクではMixtral 8x7BやGemini-Proと同等の性能を示しています。特に、交互に配置されたテキストと画像を必要とするプロンプトでの高度な混合モーダル推論と生成が可能であり、ユーザー評価でもChameleonが生成したマルチモーダル文書が好まれています。

今後の展望

最近、OpenAIとGoogleが新しいマルチモーダルモデルを発表しましたが、詳細はまだ明らかではありません。Metaが透明性のあるアプローチを維持し、Chameleonのモデルを公開すれば、プライベートモデルに代わるオープンな選択肢となる可能性があります。

早期融合のアプローチは、今後の研究にも新たな道を開くものであり、特にモダリティの統合が進む中で注目されます。ロボティクスのスタートアップなどは、言語モデルとロボティクス制御システムの統合に取り組んでおり、早期融合がロボティクス基盤モデルに与える影響は注目に値します。

まとめると、Chameleonは、柔軟にマルチモーダルコンテンツを推論し生成できる統一基盤モデルの実現に向けた大きな進展を示しています。

インテンテリー、スタートアップ創業者向けの革新的AIネットワーキングツールに300万ドルを調達

制御の委譲：Copilot+とPCが企業をMicrosoftに依存させる方法

Most people like

Dify

825.5K

Difyは、ユーザーが簡単に持続可能なアプリケーションを構築できるよう支援し、環境に配慮した開発を誰でも利用できるようにします。

LLMOps AI Product Description Generator

Kore.ai

166.8K

Kore.aiは、顧客と従業員の両方の体験を向上させ、自動化するために設計された革新的なAI駆動アシスタントを提供しており、インタラクションを効率化し、生産性を向上させます。

対話型AI AI Chatbot

Flux Pro Image Generator

5.5K

テキストを見事な高品質ビジュアルに変換するAI画像生成ツールの力を体験してください。この革新的なツールがあなたの言葉を魅力的な画像に変えることで、プロジェクトを強化し、ストーリーテリングを高める未来のクリエイティビティを実感できます。マーケティング、ソーシャルメディア、個人的な表現に関わらず、このAI駆動プラットフォームは視覚コンテンツ制作の無限の可能性を開放します。

AI画像生成器 AI Photo & Image Generator

Flipped.Chat

14.5K

AI駆動のデーティングの世界を発見しましょう。没入感のあるキャラクターとのインタラクションがあなたのオンライン体験を変えます。私たちの革新的なAIデーティングサービスはロマンスを現実にし、ダイナミックなキャラクターと交流することで、愛を見つける旅を豊かにします。今までにない繋がりを探求してみませんか！

AIデーティング AI Girlfriend

Find AI tools in YBX