微软推出Florence-2：多功能视觉任务的一体化模型

Home AI News CN 微软推出Florence-2：多功能视觉任务的一体化模型

今天，微软的Azure AI团队在Hugging Face上发布了新的视觉基础模型Florence-2。该模型在一个统一的基于提示的框架下，表现出色，能够处理多种视觉及视觉-语言任务，并采用宽松的MIT许可证。Florence-2提供232M和771M两种参数规模，能够执行图像字幕生成、对象检测、视觉定位和图像分割等任务，常常超越其他大型视觉模型。

尽管Florence-2的实际性能尚待评估，但它的目标是为企业提供一个统一的视觉应用解决方案，从而减少对多个特定任务模型的需求，这些模型往往限制功能并需进行大量微调。

Florence-2的独特之处

如今，大型语言模型（LLMs）已成为企业运营的重要组成部分，能够提供摘要、市场文案和客户支持等服务，其在不同领域的适应性十分显著。研究者们不禁要问：通常针对特定任务设计的视觉模型能否实现同样的灵活性？

视觉任务的复杂性远高于基于文本的自然语言处理（NLP），因为视觉任务需要更复杂的感知能力。一个通用模型必须能够理解不同尺度的空间数据，从物体位置等大概念到细致的像素信息以及高级字幕。

微软在创建统一视觉模型时识别出两个主要挑战：一是缺乏广泛标注的视觉数据集，二是需要一个能够整合空间层次和语义细节的单一预训练框架。

为了克服这些难题，微软开发了一个名为FLD-5B的视觉数据集，包含54亿个标注，涵盖了1.26亿张图像，从一般描述到特定对象区域。这一数据集用于训练Florence-2，该模型采用序列到序列的架构，将图像编码器与多模态编码-解码器结合。这种设计使得Florence-2能够处理各种视觉任务，而不需要对任务进行特定架构上的调整。

研究人员在论文中指出：“FLD-5B数据集中所有标注都标准化为文本输出，使得能够采用统一的多任务学习方法，并通过一致的损失函数进行优化。最终结果是一个能在单一框架内处理多项任务，并由一组一致参数控制的多功能视觉基础模型。任务激活类似于大型语言模型，通过文本提示实现。”

超越更大模型的性能

Florence-2能够有效执行多种任务，如对象检测、图像字幕生成、视觉定位和视觉问答，且输入为图像和文本时，性能显著。值得注意的是，它的结果与许多更大型的模型相当或更好。

例如，在COCO数据集的零-shot字幕生成测试中，Florence-2的232M和771M版本分别超过了DeepMind的80B参数Flamingo模型，得分为133和135.6。同时，它们的表现也优于微软自家专注于视觉定位的Kosmos-2模型。

经过公共标注数据微调后，Florence-2在视觉问答等任务中，与更大型的专业模型势均力敌。“预训练的Florence-2在下游任务中的表现得到了提升，诸如COCO对象检测、实例分割和ADE20K语义分割均超过了监督学习和自监督模型，”研究人员表示。“与在ImageNet上进行预训练的模型相比，我们的模型在训练效率上提高了4倍，并在COCO和ADE20K数据集上显著提升了6.9、5.5和5.9个点。”

目前，Florence-2的预训练和微调版本（232M和771M）已在Hugging Face上提供，依据MIT许可证可自由用于商业和私人用途。

未来，开发者将如何利用Florence-2来消除为不同任务打造单独视觉模型的必要性，值得期待。这些紧凑的任务无关模型将简化开发过程，从而显著降低计算成本。

甲骨文在微软Azure数据中心推出自主数据库，助力企业云迁移

OpenAI联合创始人伊利亚·苏茨克维尔推出初创公司，致力于解决安全超智能挑战

Most people like

Music.AI

123.1K

利用先进的人工智能模型，构建并扩展音频驱动的人工智能产品，以实现更智能的应用和出色的用户体验。

AI模型 AI唱歌生成器

SynthMind AI

44K

AI驱动的潜在客户获取工具旨在帮助企业有效识别目标客户，并获取他们的联系信息。这些智能工具不仅提高了寻找潜在客户的效率，还能优化销售流程，为企业带来更多商机。

潜在客户开发 AI 领导力培养

Wondershare UniConverter

928.1K

当今数字时代，视频内容的消费与分享已经成为生活中不可或缺的一部分。因此，拥有一款高效的高速视频转换器显得尤为重要。此工具不仅能快速转换不同格式的视频，以满足各种设备和平台的需求，同时还能保持视频的高质量，提供流畅的观看体验。无论您是专业的内容创作者，还是仅仅希望在个人设备上播放多媒体文件，选择合适的高速视频转换器将大大提升您的使用体验。通过使用此类软件，您可以轻松处理视频，确保其在不同设备间的兼容性。

视频转换器 AI 视频编辑器

Visily

473.2K

快速构建美观的线框图和原型的有效方法。

线框设计 AI网站设计师

Find AI tools in YBX