アレンAI研究所(Ai2)は、最先端のマルチモーダルAIモデルを集めたオープンソースのスイート「Molmo」を正式に発表しました。このモデルは、OpenAIのGPT-4oやAnthropicのClaude 3.5 Sonnet、GoogleのGemini 1.5など、いくつかの代表的なプロプライエタリモデルをさまざまな第三者ベンチマークで上回っています。
Molmoは、画像やファイルを分析できるマルチモーダルモデルであり、主なプロプライエタリ基盤モデルと同様の機能を備えています。特筆すべきは、Ai2がMolmoを利用することで「プロプライエタリモデルの1000分の1のデータ」で済むと主張している点で、これは同社が発表した技術報告書に詳述された革新的なトレーニング手法によるものです。
Ai2はYouTubeにデモ動画を共有し、Molmoがスマートフォン上で生中継のシーンを効率的に分析する様子を示しています。ユーザーは写真を撮影するだけで、すぐに処理が行われます—例えば、人のカウント、ビーガンメニューの特定、チラシの解釈、電子音楽バンドの識別、ホワイトボードからの手書きメモの構造化テーブルへの変換などが可能です。
このリリースは、Ai2がオープンリサーチを促進し、高性能モデルを一般の研究者やカスタマイズ可能なソリューションを求める企業に提供するという使命を反映しています。また、Molmoは「専門家の混合」アーキテクチャを使用したコスト効率の良いモデルOLMoEの直近日今発表と連動しています。
モデルのバリエーションと性能
Molmoは、異なるパラメータサイズと能力を持つ4つの主要モデルから構成されています。
- Molmo-72B: 72億パラメータを持つフラッグシップモデル。Alibaba CloudのQwen2-72Bを基にしています。
- Molmo-7B-D: AlibabaのQwen2-7Bから派生したデモンストレーションモデル。
- Molmo-7B-O: Ai2のOLMo-7Bを基にしたモデル。
- MolmoE-1B: 効率重視のモデルで、学術的なベンチマークやユーザーの好みにおいてGPT-4Vにほぼ匹敵する性能を示します。
これらのモデルは、さまざまな第三者ベンチマークで優れた能力を発揮し、多くのプロプライエタリモデルを一貫して上回っています。すべてのモデルはApache 2.0ライセンスのもとで提供されており、研究や商業利用が幅広く可能です。
Molmo-72Bは学術評価においても際立ち、11の主要ベンチマークで最高得点を獲得し、ユーザーの好みではGPT-4oに次いで第2位にランクされています。Hugging Faceの機械学習開発者アドボケートであるVaibhav Srivastavは、Molmoが閉じられたシステムの強力な代替手段を作り出し、オープンマルチモーダルAIの基準を引き上げると強調しました。さらに、Google DeepMindのロボティクス研究者Ted Xiaoは、Molmoが視覚的グラウンディングに重要な進展であるポイントデータを取り入れたことを称賛しました。
先進的なアーキテクチャとトレーニング
Molmoのアーキテクチャは、最適な効率と性能を実現するために設計されています。各モデルは、OpenAIのViT-L/14 336px CLIPモデルをビジョンエンコーダーとして使用し、マルチスケール画像をビジョントークンに変換します。これらのトークンは、マルチレイヤー・パーセプトロン(MLP)コネクタを通じて処理された後、言語モデルに統合されます。
トレーニングプロトコルは、以下の2つの重要なステージで構成されています:
- マルチモーダルの前訓練: モデルは、人間のアノテーターが提供する詳細な画像説明からキャプションを生成するようにトレーニングされ、PixMoという高品質のデータセットを利用します。
- 監視付きファインチューニング: さまざまなデータセット(学術的ベンチマークおよび新たに開発されたデータセットを含む)で調整され、文書の読み取りや視覚的推論などの複雑なタスクに対応できるようにします。
Molmoは、多くの現代モデルが依存する人間のフィードバックを用いた強化学習(RLHF)を使用せず、プリトレーニングステートに基づいてすべてのパラメータを更新する厳密に調整されたトレーニングパイプラインを使用しています。
ベンチマーク性能
Molmoモデルは、さまざまなベンチマークで優れた結果を示し、特にプロプライエタリモデルを上回る性能を発揮しています。たとえば、Molmo-72BはDocVQAで96.3、TextVQAで85.5のスコアを記録し、両方のGemini 1.5 ProおよびClaude 3.5 Sonnetを上回っています。また、Ai2Dでも96.3というスコアを記録し、すべてのモデルファミリーの中で最高得点を獲得しています。
特に、Molmo-72Bは視覚的グラウンディングタスクで優れた成績を収め、RealWorldQAで最高得点を獲得しています。これにより、ロボティクスや複雑なマルチモーダル推論アプリケーションにとって有望な候補となっています。
オープンアクセスと今後の開発
Ai2は、これらのモデルとデータセットをHugging Faceのスペースで無料で公開し、Transformersなどの人気AIフレームワークとの互換性を確保しています。この取り組みは、AIコミュニティ内でのイノベーションとコラボレーションを促進するためのAi2の使命の一部です。
今後数ヶ月以内に、Ai2は追加のモデル、トレーニングコード、および拡張された技術報告書をリリースする予定であり、研究者向けのリソースをさらに充実させていく考えです。Molmoの機能に興味のある方は、Molmoの公式ページで公開デモやモデルチェックポイントが利用可能です。