Salesforce,這家企業軟件領導者,推出了一套新的開源大型多模態AI模型,稱為xGen-MM(或BLIP-3)。這一創新發佈預計將加速複雜人工智慧系統的發展。
xGen-MM框架由Salesforce AI Research的研究人員在arXiv上發表的論文中詳細介紹,它包含了預訓練模型、全面的數據集和微調代碼。最大的模型擁有40億個參數,在與類似的開源模型比較時展示了競爭力的性能。
作者指出:「我們開源了我們的模型、大型數據集和微調代碼庫,以促進LMM研究的進一步發展。」此舉標誌著對封閉模型趨勢的轉變,可能使前沿多模態AI技術的獲得變得更為民主化。
xGen-MM(BLIP-3)框架的示意圖展示了其如何處理交錯的圖像與文本數據。該模型利用視覺轉換器編碼圖像,通過令牌採樣器壓縮視覺信息,以及使用預訓練的大型語言模型生成文本,對文本令牌應用相關損失。
xGen-MM的創新核心在於其管理「交錯數據」的能力,該數據結合了多幅圖像和文本,研究人員將其視為「最自然的多模態數據形式」。這一技能使得模型能夠執行複雜任務,如同時回答關於多幅圖像的問題,對於醫療診斷和自動駕駛等多個領域具有重要價值。
此次發佈包括幾個針對特定任務優化的模型變體:基本預訓練模型、一個「指令調整」版本以符合指令,以及一個「安全調整」模型以最小化有害輸出。這一選擇反映了AI社群對於能力與倫理考量相結合需求的日益認識。
Salesforce開源這些模型的決定,有望顯著提升多模態AI領域的創新。通過向研究人員和開發者提供高品質的模型和數據集,Salesforce創造了更廣泛合作與發展的機會,與一些科技巨頭的封閉策略形成對比。
然而,這些影響深遠的模型的推出也引發了有關先進AI系統潛在風險及社會影響的重要問題。儘管Salesforce已進行安全調整以應對這些關切,但完全可用的先進AI模型的更廣泛影響仍在科技界及其他領域內引發廣泛討論。
xGen-MM模型基於Salesforce精心策劃的龐大數據集進行訓練,其中包括一個名為「MINT-1T」的交錯圖像與文本數據集,擁有一兆個令牌。此外,還開發了針對光學字符識別和視覺定位的新數據集,這對於AI系統自然與視覺環境互動至關重要。
隨著AI技術日益普及,Salesforce的開源舉措為研究人員提供了強大的工具,幫助他們增進對這些強大系統的理解與開發。這一舉措也為該領域通常因不透明性受到批評的透明性確立了一個基準,可能激勵其他科技公司在其AI研究中採取類似做法。
在日益激烈的AI競賽中,Salesforce的開放策略可能成為重要的區隔因素。通過促進圍繞其模型的協作環境,該公司可能促進更快的創新並培養研究社群中的良好關係。然而,這一方法在企業AI解決方案的競爭領域中的有效性尚待觀察。
xGen-MM的代碼、模型和數據集已在Salesforce的GitHub庫中公開,更多資源預計將很快在項目網站上發布。隨著研究人員和開發者與這些模型的互動,Salesforce對多模態AI的貢獻將在未來數月及數年間愈發顯現。