今天,微软的Azure AI团队在Hugging Face上发布了新的视觉基础模型Florence-2。该模型在一个统一的基于提示的框架下,表现出色,能够处理多种视觉及视觉-语言任务,并采用宽松的MIT许可证。Florence-2提供232M和771M两种参数规模,能够执行图像字幕生成、对象检测、视觉定位和图像分割等任务,常常超越其他大型视觉模型。
尽管Florence-2的实际性能尚待评估,但它的目标是为企业提供一个统一的视觉应用解决方案,从而减少对多个特定任务模型的需求,这些模型往往限制功能并需进行大量微调。
Florence-2的独特之处
如今,大型语言模型(LLMs)已成为企业运营的重要组成部分,能够提供摘要、市场文案和客户支持等服务,其在不同领域的适应性十分显著。研究者们不禁要问:通常针对特定任务设计的视觉模型能否实现同样的灵活性?
视觉任务的复杂性远高于基于文本的自然语言处理(NLP),因为视觉任务需要更复杂的感知能力。一个通用模型必须能够理解不同尺度的空间数据,从物体位置等大概念到细致的像素信息以及高级字幕。
微软在创建统一视觉模型时识别出两个主要挑战:一是缺乏广泛标注的视觉数据集,二是需要一个能够整合空间层次和语义细节的单一预训练框架。
为了克服这些难题,微软开发了一个名为FLD-5B的视觉数据集,包含54亿个标注,涵盖了1.26亿张图像,从一般描述到特定对象区域。这一数据集用于训练Florence-2,该模型采用序列到序列的架构,将图像编码器与多模态编码-解码器结合。这种设计使得Florence-2能够处理各种视觉任务,而不需要对任务进行特定架构上的调整。
研究人员在论文中指出:“FLD-5B数据集中所有标注都标准化为文本输出,使得能够采用统一的多任务学习方法,并通过一致的损失函数进行优化。最终结果是一个能在单一框架内处理多项任务,并由一组一致参数控制的多功能视觉基础模型。任务激活类似于大型语言模型,通过文本提示实现。”
超越更大模型的性能
Florence-2能够有效执行多种任务,如对象检测、图像字幕生成、视觉定位和视觉问答,且输入为图像和文本时,性能显著。值得注意的是,它的结果与许多更大型的模型相当或更好。
例如,在COCO数据集的零-shot字幕生成测试中,Florence-2的232M和771M版本分别超过了DeepMind的80B参数Flamingo模型,得分为133和135.6。同时,它们的表现也优于微软自家专注于视觉定位的Kosmos-2模型。
经过公共标注数据微调后,Florence-2在视觉问答等任务中,与更大型的专业模型势均力敌。“预训练的Florence-2在下游任务中的表现得到了提升,诸如COCO对象检测、实例分割和ADE20K语义分割均超过了监督学习和自监督模型,”研究人员表示。“与在ImageNet上进行预训练的模型相比,我们的模型在训练效率上提高了4倍,并在COCO和ADE20K数据集上显著提升了6.9、5.5和5.9个点。”
目前,Florence-2的预训练和微调版本(232M和771M)已在Hugging Face上提供,依据MIT许可证可自由用于商业和私人用途。
未来,开发者将如何利用Florence-2来消除为不同任务打造单独视觉模型的必要性,值得期待。这些紧凑的任务无关模型将简化开发过程,从而显著降低计算成本。