蘋果的研究人員揭示了訓練大型語言模型(LLMs)的一系列創新方法,這些方法整合了文本與圖像,標誌著人工智慧(AI)的重大進展,並增強了未來蘋果產品的能力。這項研究的詳細內容發表在題為「MM1:多模態LLM預訓練的方法、分析與洞見」的論文中,最近在arxiv.org上公布。該研究展示了如何通過戰略性地結合各類訓練數據類型和模型架構,達到多項AI基準測試的最先進表現。
研究人員指出:「我們證明,使用精心組合的圖像-標題、交錯的圖像-文本和僅文本數據進行的大規模多模態預訓練,對於在多個基準上實現最先進的少量樣本結果至關重要。」在包括視覺和語言信息的多樣化數據集上進行模型訓練,使得MM1模型在圖像標註、視覺問答和自然語言推理等任務中表現優異。
關鍵發現:視覺組件
圖像編碼器的選擇與輸入解析度對模型性能有顯著影響。研究顯示:「圖像編碼器、圖像解析度和圖像標記數量的影響相當顯著,而視覺-語言連接器的設計則相對重要性較低。」這強調持續擴展和優化這些多模態模型中的視覺組件對釋放進一步潛力至關重要。
值得注意的是,最大的MM1模型擁有300億個參數,表現出強大的上下文學習能力,使其能夠在少量樣本的「連鎖思維」提示下,跨多個輸入圖像進行多步推理。這表明大型多模態模型能夠有效解決需要深度語言理解和生成的複雜開放性問題。
蘋果的AI投資策略
蘋果正在大幅增加AI投入,以與谷歌、微軟和亞馬遜等對手競爭,後者在整合生成AI技術上已有顯著進展。據報導,蘋果計劃每年在AI開發上投入10億美元。
內部來源透露,蘋果正在開發一個名為「Ajax」的大型語言模型框架,以及一個名為「Apple GPT」的聊天機器人。這些技術旨在增強像Siri、Messages和Apple Music等產品,可能實現自動生成個性化播放清單和助力編程的功能。
蘋果CEO Tim Cook強調了AI的重要性,表示:「我們將AI和機器學習視為基本技術,是幾乎每個我們發佈的產品的核心。雖然我不能分享具體細節,但可以放心的是,我們在這一領域的投資是相當可觀的,未來的產品將受益於此。」
競爭的AI市場
蘋果的策略歷來偏向於快速跟隨,而非科技趨勢的先行者。然而,隨著AI即將顛覆數位領域,蘋果必須保持競爭優勢。MM1研究展現了蘋果在尖端技術上的潛力,但能否迅速行動以在不斷變化的AI市場中蓬勃發展仍有待觀察。
所有目光將會集中在蘋果六月份的全球開發者大會上,屆時將預期發布新的AI驅動功能和開發者工具。同時,像Keyframer動畫工具等較小的AI進展也反映了蘋果在研究工作中的穩步推進。
正如Tim Cook所暗示的:「我們期待在今年稍晚分享我們在AI領域的持續努力。」這項工作顯然包括在多模態智慧方面的重大努力,我們或許將會見證蘋果在即將到來的先進人類AI時代中的重要角色。