Hugging Face於2023年推出了其Idefics視覺語言模型,該技術最初由DeepMind開發。升級版本Idefics2現已在Hugging Face上推出,擁有更小的參數量、開放授權及增強的光學字符識別(OCR)功能。
Idefics,即“圖像感知解碼器增強版”,是一個多功能的多模態模型,能夠處理文本和圖像提示。原先的Idefics擁有800億個參數,而Idefics2簡化至僅8000萬個,與DeepSeek-VL和LLaVA-NeXT-Mistral-7B等模型相當。
Idefics2的主要改進包括進階的圖像處理能力,支持高達980 x 980像素的原生分辨率,而不需調整為固定的平方比例,這是傳統計算機視覺的一個常見限制。此外,模型的OCR能力也經過了強化,結合了從圖像及文件的文本轉錄中獲取的數據。Hugging Face團隊強化了Idefics2在圖表、數據和文件問題上的回應能力。
此外,Idefics2的架構簡化,不再使用前一代的門控交叉注意機制。Hugging Face指出:“圖像被輸入到視覺編碼器,隨後進行學習的Perceiver池化和多層感知器的模態投影。這個池化序列與文本嵌入串接,形成互交的圖像和文本序列。”
為了訓練Idefics2,Hugging Face利用了一系列公開可用的數據集,包括Mistral-7B-v0.1和siglip-so400m-patch14-384。額外的訓練數據還包括網頁文檔、圖像-標題對、OCR數據及圖像到代碼的資源。
Idefics2的發布正值AI領域多模態模型蓬勃發展之際,其中包括Reka的Core模型、xAI的Grok-1.5V以及Google的Imagen 2。