微軟推出 Florence-2：一款設計用於多元視覺任務的統一模型

Home AI新聞微軟推出 Florence-2：一款設計用於多元視覺任務的統一模型

今天，微軟的 Azure AI 團隊在 Hugging Face 上發布了一個新的視覺基礎模型——Florence-2。該模型在 MIT 寬鬆授權下提供，透過統一的、基於提示的框架，在多種視覺及視覺語言任務中表現優異。Florence-2 提供兩種規模：232M 和 771M 參數，能夠執行如圖說、物件檢測、視覺定位和分割等任務，且通常超越其他大型視覺模型。

雖然 Florence-2 的實際性能尚待評估，但其目標是為企業提供一個統一的解決方案，以應對多樣的視覺應用，減少對多個特定任務模型的需求，這些模型往往功能受限且需要大量微調。

Florence-2 的獨特之處在於何處？

目前，大型語言模型（LLMs）在企業運營中不可或缺，提供摘要、行銷文案創建及客戶支持等服務，展現出驚人的適應性。這引發了一個問題：通常針對特定任務設計的視覺模型，能否實現類似的多功能性？

視覺任務本質上比基於文本的自然語言處理（NLP）更為複雜，因為它們需要高階的感知能力。一個通用模型必須理解不同尺度下的空間數據，從如物體位置這樣的廣泛概念到精細的畫素細節和高層次的標題。

微軟在創建統一視覺模型時確定了兩個主要挑戰：缺乏廣泛標註的視覺數據集，以及需要一個可以整合空間層次和語義細節的單一預訓練框架。為了克服這些障礙，微軟開發了名為 FLD-5B 的視覺數據集，該數據集擁有 54 億個標註，涵蓋 1.26 億張圖片，從一般描述到具體物體區域的詳細信息。該數據集為 Florence-2 提供訓練，該模型採用序列到序列架構，將圖像編碼器與多模態編碼-解碼器結合，讓 Florence-2 能夠在不需要特定任務架構變更的情況下處理多種視覺任務。

“FLD-5B 數據集中的所有標註均標準化為文本輸出，實現了一種統一的多任務學習方法，通過統一的損失函數進行一致性優化，”研究人員在論文中指出。“最終，這產生了一個多功能的視覺基礎模型，能夠在單一框架內處理多個任務，並由一組一致的參數控制，任務啟動通過文本提示實現，這與大型語言模型相似。”

性能超越更大型模型

當提供圖像和文本輸入時，Florence-2 能有效執行如物件檢測、圖說、視覺定位和視覺問答等多種任務。值得注意的是，其表現與許多大型模型相當或更好。

例如，在 COCO 數據集的零樣本圖說測試中，Florence-2 的 232M 和 771M 版本的得分分別為 133 和 135.6，均超越 DeepMind 的 80B 參數 Flamingo 模型。該模型也優於微軟自家的 Kosmos-2 模型，後者專注於視覺定位。

進行微調後，使用公開標註數據，Florence-2 在視覺問答等任務中與大型專業模型之間競爭激烈。

“預訓練的 Florence-2 主幹提升了下游任務的性能，如 COCO 物件檢測和實例分割，以及 ADE20K 語義分割，超越了監督式和自我監督模型，”研究人員表示。“與在 ImageNet 上預訓練的模型相比，我們的模型在訓練效率上提高了 4 倍，並在 COCO 和 ADE20K 數據集上性能提升 6.9、5.5 和 5.9 分。”

目前，Florence-2 的預訓練和微調版本（232M 和 771M）均以 MIT 授權在 Hugging Face 上可用，支持無限制的商業及私人使用。

期待開發者如何運用 Florence-2，消除不同任務所需的獨立視覺模型。這些精簡的無任務特定的模型能夠簡化開發，並顯著降低計算成本。

甲骨文在微軟Azure數據中心推出自動化數據庫，助力企業雲端遷移

OpenAI 共同創辦人伊利亞·蘇茲科佛推出新創公司，專注於應對安全超智能的挑戰。