苹果研究人员近期发布了创新的训练方法,用于整合文本和图像的大型语言模型(LLMs),这标志着人工智能(AI)的重大进展,并将提升未来苹果产品的功能。
这项研究详细阐述在一篇题为《MM1:多模态LLM预训练的方法、分析与洞察》的论文中,该论文最近发布在arxiv.org上。研究表明,通过战略性地结合不同类型的训练数据和模型架构,可以在多项AI基准测试中实现最先进的表现。研究人员指出:“我们证明了,利用精心调配的图像-文本和纯文本数据进行大规模多模态预训练,对于在多个基准上实现最先进的少量样本结果至关重要。”在包含视觉和语言信息的多样化数据集上训练模型,使得MM1模型在图像描述、视觉问答和自然语言推理等任务中表现出色。
视觉组件的关键发现
图像编码器的选择和输入分辨率对模型性能有显著影响。研究表明:“图像编码器、图像分辨率以及图像标记数量对性能有重要影响,而视觉-语言连接器的设计则相对不那么重要。”这强调了在多模态模型中不断扩展和优化视觉组件对挖掘进一步潜力的重要性。
值得注意的是,参数达300亿的最大MM1模型表现出强大的上下文学习能力,使其能够利用少量“思维链”提示在多个输入图像上进行多步推理。这表明,大型多模态模型可以有效应对需要深入语言理解和生成的复杂开放性问题。
苹果的AI投资策略
苹果正在大幅增加对AI的投资,以跟上谷歌、微软和亚马逊等竞争对手在生成AI产品集成方面的进步。最新消息称,苹果每年将在AI开发上投入10亿美元。内部消息来源透露,苹果正在开发一个名为“Ajax”的大型语言模型框架以及一个名为“Apple GPT”的聊天机器人。这些技术旨在增强Siri、信息和Apple Music等产品的功能,可能会实现自动生成个性化播放列表和代码编写辅助等功能。
苹果首席执行官蒂姆·库克强调,AI的重要性不容小觑,他表示:“我们将AI和机器学习视为基础技术,几乎是我们所有产品的核心。虽然我不能透露具体细节,但您可以放心,我们在这一领域的投资非常可观,您将看到相应的产品进步。”
竞争激烈的AI市场
苹果的战略历来偏向快速跟随,而非在技术趋势上做首个尝试。然而,随着AI即将彻底改变数字领域,苹果必须保持竞争优势。MM1研究展示了苹果在尖端技术中的能力,但公司是否能迅速行动,以在快速发展的AI市场中立足仍有待观察。
人们会聚焦于苹果将在六月份举行的全球开发者大会,届时预计将发布新的AI驱动功能和开发者工具。同时,一些较小的AI进展,如Keyframer动画工具,显示了苹果在研究方面的持续进展。
正如蒂姆·库克所暗示的:“我们期待在今年晚些时候分享我们在AI领域的最新进展。”这项工作似乎包括在多模态智能方面的重大努力,我们可能很快会看到苹果在先进的人性化AI新纪元中所发挥的重要角色。