今天,微軟的 Azure AI 團隊在 Hugging Face 上發布了一個新的視覺基礎模型——Florence-2。該模型在 MIT 寬鬆授權下提供,透過統一的、基於提示的框架,在多種視覺及視覺語言任務中表現優異。Florence-2 提供兩種規模:232M 和 771M 參數,能夠執行如圖說、物件檢測、視覺定位和分割等任務,且通常超越其他大型視覺模型。
雖然 Florence-2 的實際性能尚待評估,但其目標是為企業提供一個統一的解決方案,以應對多樣的視覺應用,減少對多個特定任務模型的需求,這些模型往往功能受限且需要大量微調。
Florence-2 的獨特之處在於何處?
目前,大型語言模型(LLMs)在企業運營中不可或缺,提供摘要、行銷文案創建及客戶支持等服務,展現出驚人的適應性。這引發了一個問題:通常針對特定任務設計的視覺模型,能否實現類似的多功能性?
視覺任務本質上比基於文本的自然語言處理(NLP)更為複雜,因為它們需要高階的感知能力。一個通用模型必須理解不同尺度下的空間數據,從如物體位置這樣的廣泛概念到精細的畫素細節和高層次的標題。
微軟在創建統一視覺模型時確定了兩個主要挑戰:缺乏廣泛標註的視覺數據集,以及需要一個可以整合空間層次和語義細節的單一預訓練框架。為了克服這些障礙,微軟開發了名為 FLD-5B 的視覺數據集,該數據集擁有 54 億個標註,涵蓋 1.26 億張圖片,從一般描述到具體物體區域的詳細信息。該數據集為 Florence-2 提供訓練,該模型採用序列到序列架構,將圖像編碼器與多模態編碼-解碼器結合,讓 Florence-2 能夠在不需要特定任務架構變更的情況下處理多種視覺任務。
“FLD-5B 數據集中的所有標註均標準化為文本輸出,實現了一種統一的多任務學習方法,通過統一的損失函數進行一致性優化,”研究人員在論文中指出。“最終,這產生了一個多功能的視覺基礎模型,能夠在單一框架內處理多個任務,並由一組一致的參數控制,任務啟動通過文本提示實現,這與大型語言模型相似。”
性能超越更大型模型
當提供圖像和文本輸入時,Florence-2 能有效執行如物件檢測、圖說、視覺定位和視覺問答等多種任務。值得注意的是,其表現與許多大型模型相當或更好。
例如,在 COCO 數據集的零樣本圖說測試中,Florence-2 的 232M 和 771M 版本的得分分別為 133 和 135.6,均超越 DeepMind 的 80B 參數 Flamingo 模型。該模型也優於微軟自家的 Kosmos-2 模型,後者專注於視覺定位。
進行微調後,使用公開標註數據,Florence-2 在視覺問答等任務中與大型專業模型之間競爭激烈。
“預訓練的 Florence-2 主幹提升了下游任務的性能,如 COCO 物件檢測和實例分割,以及 ADE20K 語義分割,超越了監督式和自我監督模型,”研究人員表示。“與在 ImageNet 上預訓練的模型相比,我們的模型在訓練效率上提高了 4 倍,並在 COCO 和 ADE20K 數據集上性能提升 6.9、5.5 和 5.9 分。”
目前,Florence-2 的預訓練和微調版本(232M 和 771M)均以 MIT 授權在 Hugging Face 上可用,支持無限制的商業及私人使用。
期待開發者如何運用 Florence-2,消除不同任務所需的獨立視覺模型。這些精簡的無任務特定的模型能夠簡化開發,並顯著降低計算成本。