アップルが発表したMM1.5：300億ドルのマルチモーダルAIモデル、画像認識と自然言語理解機能を搭載

Home AIニュースアップルが発表したMM1.5：300億ドルのマルチモーダルAIモデル、画像認識と自然言語理解機能を搭載

Appleは最近、パラメータ規模が300億の最新マルチモーダルAIモデル「MM1.5」を発表しました。この新しいバージョンは、前バージョンのMM1モデルを基に大幅な改善が施されています。

MM1.5は、データ駆動型の学習原則に従い、複合データがモデルのパフォーマンスに与える影響を各トレーニングサイクルで詳細に検討しています。新モデルのドキュメントはHugging Faceプラットフォームに公開されており、10億から30億までのさまざまなパラメータ設定が可能です。これにより、画像認識や自然言語推論における優れた能力が示されています。

今回のアップデートでは、Appleの研究チームはデータミキシング戦略を最適化し、マルチテキスト画像理解や視覚的参照及び位置特定、マルチ画像推論における性能が大幅に向上しました。研究によると、MM1.5の事前学習段階で高品質のOCRデータや合成画像説明を取り入れることで、テキストが多く含まれる画像を理解する能力が著しく強化されました。さらに、監視付きファインチューニングフェーズでは、さまざまなデータタイプがモデル性能に与える影響を分析し、視覚的指示調整データの最適化に成功しました。これにより、1億や3億のパラメータを持つ小型モデルでも優れた結果を達成することが可能になりました。

加えて、Appleは動画理解用の「MM1.5-Video」や、モバイルデバイスにおけるユーザーインターフェース（UI）理解用の「MM1.5-UI」といった専門モデルも導入しました。MM1.5-UIモデルは、iOSエコシステムにおけるAppleのAIの基盤となり、視覚的参照や位置特定タスクを効率的に処理し、画面機能の要約やユーザーとの対話を通じたインタラクションも可能にします。

MM1.5モデルは数多くのベンチマークで優れた性能を発揮していますが、Appleのチームはさらに進化させるため、テキスト、画像、ユーザーインタラクションデータを統合し、より複雑なアーキテクチャの開発に取り組んでいます。この継続的な努力により、AppleブランドのAIがモバイルデバイスのUI理解においてますます強力な力を発揮することを目指しています。

NVIDIA CEO ジェンセン・ファンが描く、5万人の従業員と1億のAIアシスタントが共創する未来

AIプロンプト作成効率の向上：OpenAI Playgroundで新しいMetaプロンプトツールが利用可能に！

Most people like

Docus AI

153.4K

あなたのAI搭載バーチャルヘルスアシスタントをご紹介します。個別の推奨とサポートを提供するためにカスタマイズされています。この革新的なツールは、先進的な人工知能と豊富な健康の専門知識を組み合わせており、あなたの健康と幸福のために正確なアドバイスと指導を受けることができます。今日、私たちのバーチャルヘルスアシスタントがあなたの健康の旅をサポートする方法を発見してください！

AI健康アシスタント AI Product Description Generator

Ideogram AI

Ideogramは、リアルな画像、ポスター、ロゴなどを生成する、無料で使えるAIツールです。

APIアクセス Text to Image

Faraday

16.3K

AIによる顧客予測の可能性を活用し、迅速なビジネス成長を促進しましょう。高度なアルゴリズムを活用することで、企業は顧客の行動に関する貴重な洞察を得て、エンゲージメントを向上させ、収益を増加させることができます。AIを戦略に統合することで、顧客のニーズを理解し、予測するアプローチをどのように変革できるかを発見しましょう。

AI Other

OpenRouter

1.4M

AIモデルとLLMルーターのご紹介：AIアプリケーションにおけるパフォーマンスと効率を向上させるためのゲートウェイ。

AIモデル Large Language Models (LLMs)

Find AI tools in YBX