Salesforce推出开源‘xGen-MM’多模态人工智能模型,提升视觉语言理解能力

Salesforce,作为企业软件的领导者,推出了一套新的开源大型多模态人工智能模型,称为xGen-MM(或BLIP-3)。这一创新的发布有望加速复杂人工智能系统的开发进程。

xGen-MM框架在Salesforce AI Research的研究人员于arXiv上发布的论文中详细介绍。该框架由预训练模型、全面的数据集和微调代码组成。最大的模型拥有40亿参数,在多个基准测试中与同类开源模型相比表现竞争力。

作者表示:“我们开源了模型、大规模数据集和微调代码库,以促进LMM研究的进一步发展。”这一举措标志着从专有模型的趋势转向开放,可能使前沿的多模态人工智能技术对更多人可及。

xGen-MM(BLIP-3)框架的示意图展示了其处理交错图像和文本数据的过程。该模型利用视觉变换器对图像进行编码,使用令牌采样器提炼视觉信息,并采用预训练的大型语言模型生成文本,同时对文本令牌施加相关损失。

xGen-MM的创新之处在于其管理“交错数据”的能力,这种数据结合了多张图像和文本,被研究人员视为“最自然的多模态数据形式”。这种能力使模型能够同时回答有关多张图像的复杂问题,在医学诊断和自动驾驶等多个领域中具有重要价值。

发布的模型包括几种变体,分别针对特定任务进行优化:基础预训练模型、一个“指令优化”版本以遵循指令,以及一个“安全优化”模型以减少有害输出。这一选择反映了人工智能领域内越来越多的认识,即需要在能力与伦理考虑之间找到平衡。

Salesforce选择开源这些模型,将显著推动多模态人工智能领域的创新。通过向研究人员和开发者提供高质量的模型和数据集,Salesforce创造了更广泛的合作与发展的机会,与一些科技巨头的封闭策略形成鲜明对比。

然而,这些强大模型的发布引发了一系列关于先进人工智能系统潜在风险和社会影响的关键问题。尽管Salesforce已进行安全优化以应对这些担忧,但广泛可访问的高级人工智能模型的更大影响仍在科技界及其他领域引发讨论。

xGen-MM模型在Salesforce精心策划的庞大数据集上训练,包括被称为“MINT-1T”的交错图像与文本数据集,包含一万亿个令牌。此外,还开发了针对光学字符识别和视觉定位的新数据集,这对自然与视觉环境互动的人工智能系统至关重要。

随着人工智能技术的日益普及,Salesforce的开源计划为研究人员提供了提升对这些强大系统理解和开发能力的重要工具。这一举措还为一个在常常被批评为不透明的领域树立了透明度的标杆,可能会促使其他科技公司采取类似的做法。

在愈演愈烈的人工智能竞争中,Salesforce的开放策略可能成为重要的区别点。通过在其模型周围营造协作环境,公司或许能促成更快速的创新,并与研究社区建立积极的关系。然而,这一方法在企业人工智能解决方案竞争中的有效性还有待观察。

xGen-MM的代码、模型和数据集已在Salesforce的GitHub存储库上公开,更多资源预计会很快在项目网站上发布。随着研究人员和开发者与这些模型互动,Salesforce在多模态人工智能领域的贡献将在未来几个月和几年内逐渐显现出真正的影响力。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles