蘋果推出 MM1.5：價值300億美元的多模態 AI 模型，具備影像識別與自然語言理解功能

Home AI新聞蘋果推出 MM1.5：價值300億美元的多模態 AI 模型，具備影像識別與自然語言理解功能

蘋果近期推出了最新的多模態人工智慧模型 MM1.5，具備 300 億參數的規模。這一新版本在之前的 MM1 模型基礎上做出了顯著的改進。

MM1.5 遵循數據驅動的訓練原則，深入研究混合數據在各個訓練週期中對模型性能的影響。新模型的文檔已在 Hugging Face 平台上發佈，提供從 10 億到 300 億參數的多種配置，展示了其在圖像識別和自然語言推理方面的能力。

在此次更新中，蘋果的研究團隊優化了數據混合策略，使模型在多文本圖像理解、視覺參考和定位，以及多圖像推理等領域的性能顯著提升。研究顯示，在 MM1.5 的預訓練階段，納入高質量的 OCR 數據和合成圖像描述大幅提升了模型理解含有大量文本的圖像的能力。此外，在監督微調階段，團隊分析了各類數據對模型性能的影響，優化了視覺指令微調的數據配置，使得即使是參數較少的模型（如 10 億和 30 億參數的模型）也能取得卓越效果。

此外，蘋果還推出了專門的模型，例如用於視頻理解的 MM1.5-Video 和用於移動裝置用戶介面(UI) 理解的 MM1.5-UI。MM1.5-UI 模型將成為蘋果 iOS 生態系統中人工智慧的基石，能有效處理視覺參考和定位任務，甚至能總結螢幕功能或透過用戶對話進行互動。

儘管 MM1.5 模型在多項基準測試中表現卓越，蘋果團隊仍致力於進一步提升 AI 能力，整合文本、圖像與用戶互動數據，開發更為複雜的架構。這項持續努力的目的在於增強「蘋果品牌」AI 的效能，使其在理解移動裝置用戶介面方面愈發強大。

NVIDIA 執行長黃仁勳展望未來：擁有 50,000 名員工與 1 億個 AI 助手的願景

提升AI提示創建效率：全新Meta Prompt工具現已上線OpenAI Playground

Most people like

Vidu AI

11.6M

透過我們的AI驅動工具，將您的創意轉化為引人入勝的影片，該工具能無縫地將文字與圖片轉換為高品質的視覺內容。無論您是在製作吸引人的行銷素材或令人驚豔的社交媒體貼文，我們的創新解決方案簡化了影片製作過程，使其對每個人都易於取得。探索如何輕鬆提升您的故事講述技巧，並吸引您的觀眾。

AI 视频生成器 Text to Video

Humanize AI

640.1K

在當今的數位環境中，迅速創造引人注目的內容至關重要。探索我們專為將文本轉化為引人入勝的類人內容而設計的AI驅動工具。憑藉先進的算法和自然語言處理技術，您可以提升寫作水平，確保與受眾產生共鳴，同時節省時間和精力。無論您是在撰寫文章、部落格文章，還是社群媒體更新，釋放AI的潛力，輕鬆增強您的內容。

AI 文字人性化工具 AI Rewriter

RightBlogger

101.5K

歡迎來到 RightBlogger，一個專為部落客設計的創新 AI 驅動平臺。擁有超過 40 種強大的工具，您可以輕鬆地在比以往更短的時間內創作高品質內容。今天就與 RightBlogger 一起提升您的部落格體驗和生產力！

人工智慧驅動的內容工具 AI Content Generator

Twixify

310.6K

利用我們先進的文本重寫工具，釋放您的寫作潛力。這款工具專為符合您的獨特寫作風格而設計。無論您是想提升清晰度、增加互動性，還是精練內容，我們的工具都提供量身定制的建議，滿足您的需求。體驗將您的想法流暢轉化為引人入勝的散文，同時保留原始含義。今天就提升您的寫作吧！

文本重寫 AI SEO Assistant

Find AI tools in YBX