艾伦人工智能研究院(Ai2)正式推出了Molmo,这是一个开源的先进多模态人工智能模型套件,在多个第三方基准测试中超越了顶级专有竞争对手,包括OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet和Google的Gemini 1.5。作为多模态模型,Molmo可以分析图像和文件,类似于领先的专有基础模型。值得注意的是,Ai2声称,Molmo的训练方法通过创新手段,使用的数据量比专有模型少“1000倍”。这一点在该公司创始人保罗·艾伦领导下新发布的技术报告中有详细说明。
Ai2还在YouTube上发布了一段演示视频,展示了Molmo如何在智能手机上高效分析实时场景。用户只需拍摄一张照片,即可进行即时处理,示例包括统计人数、识别素食菜单项、解读传单、区分电子音乐乐队,以及将白板上的手写笔记转换为结构化表格。
这一发布标志着Ai2致力于通过提供高性能模型,实现开放研究的承诺,这些模型配备了可供访问的权重和数据,旨在为更大社区和寻求可定制解决方案的企业提供支持。
Molmo的推出紧随Ai2最近推出的OLMoE,这是一个采用“混合专家”架构的高性价比模型。
模型变种及性能
Molmo包含四个主要模型,其参数规模和能力各不相同:
- Molmo-72B: 旗舰模型,拥有720亿参数,基于阿里云的Qwen2-72B。
- Molmo-7B-D: 基于阿里Qwen2-7B的演示模型。
- Molmo-7B-O: 基于Ai2的OLMo-7B。
- MolmoE-1B: 一个注重效率的模型,其性能几乎与GPT-4V相当,适用于学术基准和用户偏好。
这些模型在各类第三方基准测试中展现出色,持续优于许多专有替代品。所有模型均在Apache 2.0许可证下开放,支持广泛的研究和商业使用。
Molmo-72B在学术评估中表现突出,在11个关键基准中获得最高分,在用户偏好中排名第二,仅次于GPT-4o。
Hugging Face的机器学习开发者倡导者Vaibhav Srivastav强调,Molmo为封闭系统提供了强有力的替代方案,推动了开放多模态人工智能的标准。谷歌DeepMind的机器人研究员Ted Xiao也赞扬了Molmo在视觉定位中数据指向的应用,这是机器人学的重要进展,提升了与物理环境的交互。
先进架构与训练
Molmo的架构旨在实现最佳效率和性能。每个模型都使用OpenAI的ViT-L/14 336px CLIP模型作为视觉编码器,将多尺度图像转化为视觉标记。这些标记通过多层感知器(MLP)连接器处理,然后整合到语言模型中。
训练协议包含两个关键阶段:
- 多模态预训练: 模型训练生成来自人类标注员详细图像描述的标题,使用高质量数据集PixMo。
- 监督微调: 模型在包括学术基准和新开发数据集的多样性数据集上进行微调,使其能够处理文档阅读和视觉推理等复杂任务。
与许多现有模型不同,Molmo不依赖人类反馈的强化学习(RLHF),而是采用精确校准的训练管道,根据预训练状态更新所有参数。
基准性能
Molmo模型在多项基准测试中展现出色,尤其在与专有模型的比较中。例如,Molmo-72B在DocVQA上得分96.3,在TextVQA上得分85.5,均超越Gemini 1.5 Pro和Claude 3.5 Sonnet。同时,它在Ai2D中得分96.3,位居所有模型家庭之首。
Molmo-72B在视觉定位任务中表现优异,在RealWorldQA中获得高分,成为机器人和复杂多模态推理应用的有力候选者。
开放访问与未来发展
Ai2已将这些模型和数据集在其Hugging Face空间上免费提供,确保与流行的AI框架(如Transformers)兼容。这一举措是Ai2促进AI社区创新和合作的使命的一部分。
在未来几个月内,Ai2计划发布更多模型、训练代码和扩展的技术报告,进一步增强研究资源。想了解Molmo功能的用户可以在Molmo的官方网站上访问公共演示和模型检查点。