苹果公司的研究人员开发了一种革命性的大型语言模型(LLMs)训练方法,可以无缝结合文本和视觉信息。这项创新在他们的论文《MM1:用于多模态LLMs的预训练方法、分析与见解》中详细阐述,为构建更智能和多功能的人工智能系统开辟了新路径。
苹果公司表示,MM1模型通过采用多样化的数据集,包括图像-文本配对、交错的图像-文本文档以及纯文本数据,展示了在图像字幕生成、视觉问答和自然语言推理等任务中卓越的准确性。这项研究通过关注不同训练数据类型和模型架构的结合,为人工智能设定了新标准,使机器能够根据视觉和语言线索理解并生成回应。这种能力在解释复杂图像或回答与视觉元素相关的问题时尤为关键。
论文还强调了MM1在上下文学习能力方面的卓越表现,尤其是在参数量达到30亿的配置下。值得注意的是,它的“链式思维”推理使得模型能够仅用少量示例解决复杂的开放性问题。
这项研究标志着苹果在增强人工智能能力方面迈出了重要一步,尤其是在激烈的竞争环境中。最近的报道显示,苹果正与谷歌磋商,希望许可其Gemini生成型LLM,以支持即将推出的iOS 18新功能。