Hugging Face发布Idefics2：全新8B开源视觉语言模型

Home AI News CN Hugging Face发布Idefics2：全新8B开源视觉语言模型

在2023年，Hugging Face推出了其视觉语言模型Idefics，该技术最初由DeepMind开发。现已发布升级版Idefics2，它在Hugging Face上可用，具有更小的参数规模、开放的许可以及增强的光学字符识别（OCR）能力。

Idefics代表“图像感知解码器增强版”，是一种多模态模型，能够同时处理文本和图像提示。原版Idefics拥有800亿个参数，而Idefics2经过精简，仅有80亿个参数，与DeepSeek-VL和LLaVA-NeXT-Mistral-7B等模型相当。

Idefics2的主要改进包括先进的图像处理能力，支持高达980 x 980像素的本地分辨率，无需调整为固定的平方比例，这是传统计算机视觉常见的限制。此外，其OCR能力也得到增强，通过整合图像和文档中的文本转录数据，Hugging Face团队提升了Idefics2对图表、图像和文档相关问题的响应能力。

Idefics2的架构也进行了简化，去除了前版本中使用的门控交叉注意机制。Hugging Face表示：“图像输入视觉编码器，然后进行学习的感知聚合，接着是多层感知机模态投影。这个聚合序列与文本嵌入拼接，形成图像与文本交错的序列。”

为了训练Idefics2，Hugging Face结合了多个公开可用的数据集，包括Mistral-7B-v0.1和siglip-so400m-patch14-384。额外的训练数据还包括网页文档、图像-标题对、OCR数据以及图像到代码资源。

Idefics2的发布正值AI领域多模态模型激增，包括Reka的Core模型、xAI的Grok-1.5V和谷歌的Imagen 2等。

MongoDB与AWS、Google及Microsoft等云巨头和AI初创公司的合作如何推动开发者生成式AI创新

Telesign的Verify API利用AI和机器学习提升安全性与全渠道增长