艾倫人工智慧研究所(Ai2)正式推出Molmo,這是一套開源的尖端多模態AI模型,根據多項第三方基準測試,其表現超越了包括OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet及Google的Gemini 1.5在內的多個專有競爭對手。
作為多模態模型,Molmo能夠分析影像和文件,功能上不亞於領先的專有基礎模型。Ai2聲稱,得益於其創新的訓練方法,Molmo的數據需求「少達1000倍」,具體細節可參考由保羅·艾倫創立公司的Ali Farhadi領導的新技術報告。
此外,Ai2在YouTube上分享了一段演示視頻,展示Molmo如何在智能手機上高效分析實時場景。用戶只需拍照即可立即處理,應用實例包括計算人數、識別純素菜單項目、解讀傳單、區分電子音樂樂隊及將白板上的手寫筆記轉換為結構化表格。
此次發布體現了Ai2致力於促進開放研究的承諾,為更廣泛的社區和尋求可定制解決方案的企業提供高效能模型,並附上可獲取的權重和數據。Molmo是Ai2最近推出的OLMoE模型的擴展,該模型利用「專家混合」架構,具備成本效益。
模型變體與性能
Molmo包含四種主要模型,具備不同的參數規模和功能:
- Molmo-72B:旗艦模型,擁有720億個參數,基於阿里巴巴雲的Qwen2-72B架構。
- Molmo-7B-D:從阿里巴巴的Qwen2-7B中衍生出來的演示模型。
- Molmo-7B-O:基於Ai2的OLMo-7B。
- MolmoE-1B:一個專注於效率的模型,在學術指標和用戶偏好上幾乎達到了GPT-4V的性能水平。
這些模型在各種第三方基準測試中展現出卓越的能力,持續超越多個專有替代方案。所有模型均以開放的Apache 2.0許可證發布,支持廣泛的研究和商業用途。
Molmo-72B在學術評估中表現突出,在11個關鍵基準測試中獲得最高分,並在用戶偏好排名中位列第二,僅次於GPT-4o。
Hugging Face的機器學習開發者倡導者Vaibhav Srivastav強調,Molmo為封閉系統提供了有力的替代方案,提升了開放多模態AI的標準。同時,Google DeepMind的機器人研究員Ted Xiao則讚賞Molmo在視覺定位中整合的指向數據,這對於機器人的物理環境互動是一項重要的進展。
先進的架構與訓練
Molmo的架構經過精心設計,以實現最佳的效率和性能。每個模型都採用OpenAI的ViT-L/14 336px CLIP模型作為視覺編碼器,將多尺度影像轉換為視覺標記。這些標記經過多層感知器(MLP)連接後,再整合進語言模型中。
訓練流程主要包括兩個關鍵階段:
- 多模態預訓練:模型根據人類標註者提供的詳細影像描述生成標題,使用高品質數據集PixMo進行訓練。
- 監督微調:模型在包含學術基準和新開發數據集的多樣化數據集上進行微調,以應對文檔閱讀和視覺推理等複雜任務。
不同於許多現代模型,Molmo不依賴於來自人類反饋的強化學習(RLHF),而是使用精確校準的訓練流程,基於預訓練狀態更新所有參數。
基準表現
Molmo模型在多項基準測試中展現出卓越的結果,顯著領先專有模型。例如,Molmo-72B在DocVQA中得分96.3,在TextVQA中得分85.5,均超越了Gemini 1.5 Pro和Claude 3.5 Sonnet。其在Ai2D的得分為96.3,在所有模型家族中名列前茅。
值得注意的是,Molmo-72B在視覺定位任務中表現出色,在RealWorldQA中取得最高分,成為機器人技術和複雜多模態推理應用的理想候選者。
開放存取與未來發展
Ai2已將這些模型和數據集免費提供於其Hugging Face空間,確保與廣泛使用的AI框架(如Transformers)的兼容性。這一舉措是Ai2推動AI社群內創新和合作的使命的一部分。
在接下來的幾個月中,Ai2計劃發布更多模型、訓練代碼和擴展的技術報告,進一步增強研究人員可用的資源。欲了解Molmo的能力,大眾演示和模型檢查點現已在Molmo的官方頁面上提供。