Hugging Face 推出 Idefics2：全新 8B 開源視覺語言模型

Home AI新聞 Hugging Face 推出 Idefics2：全新 8B 開源視覺語言模型

Hugging Face於2023年推出了其Idefics視覺語言模型，該技術最初由DeepMind開發。升級版本Idefics2現已在Hugging Face上推出，擁有更小的參數量、開放授權及增強的光學字符識別（OCR）功能。

Idefics，即“圖像感知解碼器增強版”，是一個多功能的多模態模型，能夠處理文本和圖像提示。原先的Idefics擁有800億個參數，而Idefics2簡化至僅8000萬個，與DeepSeek-VL和LLaVA-NeXT-Mistral-7B等模型相當。

Idefics2的主要改進包括進階的圖像處理能力，支持高達980 x 980像素的原生分辨率，而不需調整為固定的平方比例，這是傳統計算機視覺的一個常見限制。此外，模型的OCR能力也經過了強化，結合了從圖像及文件的文本轉錄中獲取的數據。Hugging Face團隊強化了Idefics2在圖表、數據和文件問題上的回應能力。

此外，Idefics2的架構簡化，不再使用前一代的門控交叉注意機制。Hugging Face指出：“圖像被輸入到視覺編碼器，隨後進行學習的Perceiver池化和多層感知器的模態投影。這個池化序列與文本嵌入串接，形成互交的圖像和文本序列。”

為了訓練Idefics2，Hugging Face利用了一系列公開可用的數據集，包括Mistral-7B-v0.1和siglip-so400m-patch14-384。額外的訓練數據還包括網頁文檔、圖像-標題對、OCR數據及圖像到代碼的資源。

Idefics2的發布正值AI領域多模態模型蓬勃發展之際，其中包括Reka的Core模型、xAI的Grok-1.5V以及Google的Imagen 2。

MongoDB 與 AI 新創公司以及雲端巨頭如 AWS、Google 和 Microsoft 的合作如何推動開發者生成式 AI 創新

Telesign 的 Verify API 利用人工智慧及機器學習提升安全性與全渠道增長

Most people like

Luma AI

270.8K

在當今的數位環境中，引人入勝的影片對於吸引觀眾和提升品牌能見度至關重要。AI 影片製作工具簡化了影片創作過程，使用戶能在短短幾分鐘內製作出令人驚艷的專業品質影片。無論你是行銷人員、內容創作者還是創業家，這個創新工具都能將你的想法轉化為吸引眼球的視覺內容，而無需具備廣泛的技術技能。發掘 AI 影片製作工具如何提升你的故事敘述能力並增強你的在線存在感！

AI 视频生成器 Other

Lindy.ai

138.6K

輕鬆創建您自己的AI代理—無需編程！透過打造個性化的AI代理，釋放人工智慧的潛力，無需任何編程知識。無論您是商業擁有者、開發者或只是對AI感到好奇，我們的平台使您能夠設計並部署符合您特定需求的智能代理。深入無需編碼的解決方案世界，輕鬆實現您的AI創意！

人工智慧 AI Customer Service Assistant

FliFlik Voice Changer

103K

轉變你的聲音：遊戲和串流的終極聲音變聲器探索完美的變聲器，提升你的遊戲和串流體驗。無論你是想娛樂觀眾、增加匿名性，還是純粹享受樂趣，我們的高評價變聲器都能增強你的表現，讓互動更具吸引力。擁有各種可自訂的效果和用戶友好的功能，你可以創造適合你的遊戲風格或串流角色的獨特聲音。探索無限可能，將你的內容提升到新的高度！

語音變聲器 AI Voice Changer

Clarice.ai

155.2K

釋放您的內容潛力，使用我們的 AI 寫作助手，旨在提升您的寫作效率並改善輸出質量。體驗更快、更有效的內容創建，輕鬆吸引您的受眾，達成您的目標。

人工智慧寫作助手 Writing Assistants

Find AI tools in YBX