苹果在2023年生成式人工智能领域的角色
尽管苹果在2023年的生成式人工智能竞赛中相对低调,但其在该领域的进展显著,默默推动了设备端生成式人工智能的发展。苹果近期的研究论文、模型和编程库表明,其战略意图是增强在这一新兴市场的影响力。
独特的设备端推理定位
苹果的生成式人工智能方法与许多竞争科技巨头有所不同。由于不是超大规模云服务提供商,苹果无法依赖基于云的大型语言模型(LLM)来支撑其商业模式。但它具有无与伦比的垂直整合能力,能够控制从操作系统到处理器的整个技术栈。这使苹果在优化生成模型以实现设备端推理方面具有独特优势。
近期的研究强调了苹果的技术进展。1月发布的论文《LLM in a flash》展示了一种技术,可以使大型语言模型高效地在内存有限的设备(如智能手机和笔记本)上运行。该方法战略性地结合了动态随机存取存储器(DRAM)和闪存,动态交换模型权重,以最小化内存使用和推理延迟,特别是在苹果硅芯片上。
此前,苹果的研究表明,通过对LLM架构进行改进,推理计算可以减少多达三倍,同时最小化性能损失。随着开发者创建能够运行在消费者设备上的小型LLM,降低的延迟变得愈加重要,因为即使是微小的延迟也会影响整体用户体验。
开源创新
最近几个月,苹果推出了多个开源生成模型,其中包括10月发布的Ferret。Ferret是一种多模态LLM,具有7亿和13亿两种参数规模。它基于Vicuna开源LLM以及LLaVA视觉-语言模型构建,拥有独特机制,能够根据特定输入图像的部分内容生成响应,并展示在细节识别上的高超能力。这一功能有望革新用户通过iPhone相机或Vision Pro设备与物体的交互方式。
此外,苹果还推出了MLLM引导的图像编辑(MGIE)模型,能够根据自然语言提示修改图像。MGIE既支持亮度和对比度等广泛调整,也能对特定图像区域进行有针对性的修改,提升未来iOS设备的功能。
虽然苹果传统上对开源举措持谨慎态度,但将Ferret授权用于研究目的可能会促进更活跃的开发者社区,推动创新应用的发展。
增强的软件开发工具
在12月,苹果发布了MLX,这是一个用户友好的机器学习模型开发库。MLX引入了类似于流行Python库(如NumPy和PyTorch)的熟悉界面,同时针对苹果的M2和M3处理器进行了性能优化。它采用“共享内存”技术,使得机器学习模型能够高效利用不同类型的内存。
该库的设计简化了开发者将代码从现有库迁移到苹果环境的过程,并以MIT许可证授权商业使用,鼓励更广泛的采用。
结论
这一发展轨迹表明,苹果正在为设备端生成式人工智能的重大转变奠定基础,拥有强大的研发和工程团队随时准备进行创新。尽管苹果可能不会直接与GPT-4等模型竞争,但它完全有能力推动下一波大型语言模型在iPhone和智能手表等设备上的应用。随着苹果不断发挥其优势,预计其在设备端生成式人工智能领域的影响力将显著增长。