在2024年全球开发者大会(WWDC)上,继微软Build和谷歌I/O之后,苹果被寄予厚望,期待展示其设备端AI能力。苹果成功地将生成性AI融入到所有设备的用户体验中,展示了令人瞩目的进步。
设备端AI的亮点
苹果在演示中最引人注目的特点是广泛的设备端处理。借助其先进的处理器和丰富的开放研究,苹果在其手机和电脑上实现了高质量、低延迟的AI功能。以下是我们了解到的关于苹果设备端AI的信息:
苹果模型概述
在6月10日的“苹果国情咨文”演讲和一篇博客文章中,苹果披露了其使用的参数达30亿的模型。尽管具体的基础模型并未公开,但苹果最近推出了包括OpenELM家族在内的多个开放模型,其中包含为资源受限设备优化的30亿参数版本。
OpenELM经过改进,以提高模型质量而不增加参数,这表明苹果的基础模型可能是OpenELM-3B的特定变体。该模型是在18万亿个开放数据集的基础上训练的,这些数据包括由AppleBot收集的许可和公共可用数据。
许可证数据合作
苹果已与多个合作伙伴建立了数据许可协议,包括与Shutterstock达成的2500万到5000万美元的交易,用于图像,以及可能与主要新闻和出版机构达成的5000万美元的协议。
训练与优化技术
该模型通过人类反馈的强化学习(RLHF)和涉及教师委员会的拒绝采样微调算法进行了有效的指令遵从性优化。RLHF利用人类标注的数据,根据用户偏好调整语言模型,自ChatGPT发布以来,这一方法越来越受欢迎。拒绝采样生成多个训练示例,为模型更新选择最佳结果,这一技术也被Llama-2团队使用。
技术优化
苹果采取了多种技术来提升模型性能,同时保持资源效率。基础模型采用由谷歌研究开发的“分组查询注意力”(GQA)技术,以最小的内存和计算影响加快推理速度。此外,模型还使用“表列化”,通过查找表压缩权重,并结合量化,减少每个参数的位数。
这些模型经过优化,适用于M1及更高版本的芯片,以及配备A17 Pro芯片的iPhone 15 Pro和Pro Max,这表明苹果针对旗下芯片量身定制了优化技术,例如去年推出的闪存大型语言模型(LLM)。
性能指标
在iPhone 15 Pro上的测试结果显示,首次标记的延迟约为每个提示标记0.6毫秒,生成速率为每秒30个标记。例如,提交一个1000标记的提示将在0.6秒内得到响应,并以每秒30个标记的速度继续生成,显示了出色的性能。
低秩适配的定制化
为了提高功能而不重复模型,苹果工程师开发了使用低秩适配(LoRA)适配器的精细调优版本。LoRA对特定任务更新一小部分权重,适配器每个不到100兆,允许设备存储多种选项用于校对、总结和电子邮件回复等功能。
性能评估
根据苹果的评估,其模型通常优于同样规模甚至更大的模型,包括Gemma-2B、Mistral-7B和Phi-3B-Mini。
总结
总体来看,苹果的设备端AI展示了紧凑模型与有效优化技术、优质数据和强大硬件结合的潜力。该公司在准确性和用户体验之间取得了重大进展。随着这一技术预计在今年秋季向消费者发布,我们将拭目以待其表现。