Hugging Face发布Idefics2:全新8B开源视觉语言模型

在2023年,Hugging Face推出了其视觉语言模型Idefics,该技术最初由DeepMind开发。现已发布升级版Idefics2,它在Hugging Face上可用,具有更小的参数规模、开放的许可以及增强的光学字符识别(OCR)能力。

Idefics代表“图像感知解码器增强版”,是一种多模态模型,能够同时处理文本和图像提示。原版Idefics拥有800亿个参数,而Idefics2经过精简,仅有80亿个参数,与DeepSeek-VL和LLaVA-NeXT-Mistral-7B等模型相当。

Idefics2的主要改进包括先进的图像处理能力,支持高达980 x 980像素的本地分辨率,无需调整为固定的平方比例,这是传统计算机视觉常见的限制。此外,其OCR能力也得到增强,通过整合图像和文档中的文本转录数据,Hugging Face团队提升了Idefics2对图表、图像和文档相关问题的响应能力。

Idefics2的架构也进行了简化,去除了前版本中使用的门控交叉注意机制。Hugging Face表示:“图像输入视觉编码器,然后进行学习的感知聚合,接着是多层感知机模态投影。这个聚合序列与文本嵌入拼接,形成图像与文本交错的序列。”

为了训练Idefics2,Hugging Face结合了多个公开可用的数据集,包括Mistral-7B-v0.1和siglip-so400m-patch14-384。额外的训练数据还包括网页文档、图像-标题对、OCR数据以及图像到代码资源。

Idefics2的发布正值AI领域多模态模型激增,包括Reka的Core模型、xAI的Grok-1.5V和谷歌的Imagen 2等。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles