苹果研究人员在公司加大投资的背景下，破解多模态AI的突破性进展

Home AI News CN 苹果研究人员在公司加大投资的背景下，破解多模态AI的突破性进展

苹果研究人员近期发布了创新的训练方法，用于整合文本和图像的大型语言模型（LLMs），这标志着人工智能（AI）的重大进展，并将提升未来苹果产品的功能。

这项研究详细阐述在一篇题为《MM1：多模态LLM预训练的方法、分析与洞察》的论文中，该论文最近发布在arxiv.org上。研究表明，通过战略性地结合不同类型的训练数据和模型架构，可以在多项AI基准测试中实现最先进的表现。研究人员指出：“我们证明了，利用精心调配的图像-文本和纯文本数据进行大规模多模态预训练，对于在多个基准上实现最先进的少量样本结果至关重要。”在包含视觉和语言信息的多样化数据集上训练模型，使得MM1模型在图像描述、视觉问答和自然语言推理等任务中表现出色。

视觉组件的关键发现

图像编码器的选择和输入分辨率对模型性能有显著影响。研究表明：“图像编码器、图像分辨率以及图像标记数量对性能有重要影响，而视觉-语言连接器的设计则相对不那么重要。”这强调了在多模态模型中不断扩展和优化视觉组件对挖掘进一步潜力的重要性。

值得注意的是，参数达300亿的最大MM1模型表现出强大的上下文学习能力，使其能够利用少量“思维链”提示在多个输入图像上进行多步推理。这表明，大型多模态模型可以有效应对需要深入语言理解和生成的复杂开放性问题。

苹果的AI投资策略

苹果正在大幅增加对AI的投资，以跟上谷歌、微软和亚马逊等竞争对手在生成AI产品集成方面的进步。最新消息称，苹果每年将在AI开发上投入10亿美元。内部消息来源透露，苹果正在开发一个名为“Ajax”的大型语言模型框架以及一个名为“Apple GPT”的聊天机器人。这些技术旨在增强Siri、信息和Apple Music等产品的功能，可能会实现自动生成个性化播放列表和代码编写辅助等功能。

苹果首席执行官蒂姆·库克强调，AI的重要性不容小觑，他表示：“我们将AI和机器学习视为基础技术，几乎是我们所有产品的核心。虽然我不能透露具体细节，但您可以放心，我们在这一领域的投资非常可观，您将看到相应的产品进步。”

竞争激烈的AI市场

苹果的战略历来偏向快速跟随，而非在技术趋势上做首个尝试。然而，随着AI即将彻底改变数字领域，苹果必须保持竞争优势。MM1研究展示了苹果在尖端技术中的能力，但公司是否能迅速行动，以在快速发展的AI市场中立足仍有待观察。

人们会聚焦于苹果将在六月份举行的全球开发者大会，届时预计将发布新的AI驱动功能和开发者工具。同时，一些较小的AI进展，如Keyframer动画工具，显示了苹果在研究方面的持续进展。

正如蒂姆·库克所暗示的：“我们期待在今年晚些时候分享我们在AI领域的最新进展。”这项工作似乎包括在多模态智能方面的重大努力，我们可能很快会看到苹果在先进的人性化AI新纪元中所发挥的重要角色。

向成功迈进：克服闪亮物体综合症，发掘向量数据库中的独角兽潜力

Deci发布创新AI开发平台及紧凑型Deci Nano模型

Most people like

Cognify Insights

6.4K

深入研究分析的浏览器扩展工具

研究助手研究工具

Octane AI

72.2K

AI推动的Shopify商店收入增长在当今竞争激烈的电商环境中，AI技术正不断改变商家的运营方式。借助人工智能，Shopify商店能够更精准地分析客户行为，优化营销策略，从而实现收入的显著提升。本文将探讨如何利用AI工具提升Shopify商店的业绩，带您全面了解实现收入增长的最佳实践。

Shopify 集成 AI产品描述生成器

ChatGPT Image Generator

32.1K

释放您的创意潜能，使用 ChatGPT 图片生成器！立刻开始创造独特而迷人的视觉作品，尽情发挥您的想象力。

人工智能文字转图片工具

Curiosity

66.2K

在一个集中地点轻松搜索您所有的应用程序和文件。

搜索 AI 邮件助手

Find AI tools in YBX