蘋果推出 MM1.5:價值300億美元的多模態 AI 模型,具備影像識別與自然語言理解功能

蘋果近期推出了最新的多模態人工智慧模型 MM1.5,具備 300 億參數的規模。這一新版本在之前的 MM1 模型基礎上做出了顯著的改進。

MM1.5 遵循數據驅動的訓練原則,深入研究混合數據在各個訓練週期中對模型性能的影響。新模型的文檔已在 Hugging Face 平台上發佈,提供從 10 億到 300 億參數的多種配置,展示了其在圖像識別和自然語言推理方面的能力。

在此次更新中,蘋果的研究團隊優化了數據混合策略,使模型在多文本圖像理解、視覺參考和定位,以及多圖像推理等領域的性能顯著提升。研究顯示,在 MM1.5 的預訓練階段,納入高質量的 OCR 數據和合成圖像描述大幅提升了模型理解含有大量文本的圖像的能力。此外,在監督微調階段,團隊分析了各類數據對模型性能的影響,優化了視覺指令微調的數據配置,使得即使是參數較少的模型(如 10 億和 30 億參數的模型)也能取得卓越效果。

此外,蘋果還推出了專門的模型,例如用於視頻理解的 MM1.5-Video 和用於移動裝置用戶介面(UI) 理解的 MM1.5-UI。MM1.5-UI 模型將成為蘋果 iOS 生態系統中人工智慧的基石,能有效處理視覺參考和定位任務,甚至能總結螢幕功能或透過用戶對話進行互動。

儘管 MM1.5 模型在多項基準測試中表現卓越,蘋果團隊仍致力於進一步提升 AI 能力,整合文本、圖像與用戶互動數據,開發更為複雜的架構。這項持續努力的目的在於增強「蘋果品牌」AI 的效能,使其在理解移動裝置用戶介面方面愈發強大。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles