Appleは最近、パラメータ規模が300億の最新マルチモーダルAIモデル「MM1.5」を発表しました。この新しいバージョンは、前バージョンのMM1モデルを基に大幅な改善が施されています。
MM1.5は、データ駆動型の学習原則に従い、複合データがモデルのパフォーマンスに与える影響を各トレーニングサイクルで詳細に検討しています。新モデルのドキュメントはHugging Faceプラットフォームに公開されており、10億から30億までのさまざまなパラメータ設定が可能です。これにより、画像認識や自然言語推論における優れた能力が示されています。
今回のアップデートでは、Appleの研究チームはデータミキシング戦略を最適化し、マルチテキスト画像理解や視覚的参照及び位置特定、マルチ画像推論における性能が大幅に向上しました。研究によると、MM1.5の事前学習段階で高品質のOCRデータや合成画像説明を取り入れることで、テキストが多く含まれる画像を理解する能力が著しく強化されました。さらに、監視付きファインチューニングフェーズでは、さまざまなデータタイプがモデル性能に与える影響を分析し、視覚的指示調整データの最適化に成功しました。これにより、1億や3億のパラメータを持つ小型モデルでも優れた結果を達成することが可能になりました。
加えて、Appleは動画理解用の「MM1.5-Video」や、モバイルデバイスにおけるユーザーインターフェース(UI)理解用の「MM1.5-UI」といった専門モデルも導入しました。MM1.5-UIモデルは、iOSエコシステムにおけるAppleのAIの基盤となり、視覚的参照や位置特定タスクを効率的に処理し、画面機能の要約やユーザーとの対話を通じたインタラクションも可能にします。
MM1.5モデルは数多くのベンチマークで優れた性能を発揮していますが、Appleのチームはさらに進化させるため、テキスト、画像、ユーザーインタラクションデータを統合し、より複雑なアーキテクチャの開発に取り組んでいます。この継続的な努力により、AppleブランドのAIがモバイルデバイスのUI理解においてますます強力な力を発揮することを目指しています。