探索蘋果新推出的「MM1」AI模型:功能、應用與創新

蘋果的研究人員開發了一種突破性的訓練大型語言模型(LLMs)的方法,能夠無縫整合文本和視覺信息。這項創新詳述於他們的論文《MM1:一種多模態LLMs的預訓練方法、分析與見解》,為創造更智能和多功能的人工智慧系統指明了新方向。

透過使用包含圖片-標題對、交錯的圖像-文本文件和純文本數據的多樣數據集,蘋果聲稱其MM1模型在圖像標題生成、視覺問題回答和自然語言推理等任務上顯示出卓越的準確性。這項研究在人工智慧領域設立了新標準,專注於各種訓練數據類型和模型架構的結合,使機器能夠根據視覺和語言線索理解和生成反應。這些能力對於需要複雜世界解釋的任務至關重要,例如解釋複雜圖像或回答與視覺元素相關的問題。

論文還強調了MM1在上下文學習能力方面的卓越表現,尤其在擁有高達30億個參數的配置中。值得注意的是,其「思維鏈」推理能力使模型能夠僅依賴幾個範例解決複雜的開放性問題。

這項研究標誌著蘋果在激烈競爭中提升人工智慧能力的一個重要步驟。最近的報導顯示,蘋果正在與谷歌洽談授權其Gemini生成式LLM,以支持即將推出的iOS 18功能。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles