苹果引领人工智能革命
苹果公司以其技术创新而闻名,再次在人工智能领域走在前列。最近,这家位于库比蒂诺的公司通过两篇突破性论文,展示了在3D头像创建和语言模型推理优化方面的重大进展。这些发展承诺将提供沉浸式视觉体验,使复杂的人工智能系统能够在消费设备如iPhone和iPad上无缝运行。
沉浸式3D头像技术HUGS
第一篇研究论文介绍了HUGS(人类高斯点云),这是一种从短单相机视频中生成动态3D头像的方法。主笔穆罕默德·科卡巴斯表示:“我们的方法在不到30分钟内处理50-100帧视频,自动将静态背景与可动画的人类头像分离。”
HUGS采用一种高效的渲染技术——3D高斯点云,表示人类模型和背景场景。该模型最初基于SMPL统计身体形状,但HUGS允许调整,捕捉复杂的细节,如衣物和头发。一个新颖的神经形变模块保证了通过线性混合蒙皮实现逼真的动画,产生平滑的动作而没有伪影。科卡巴斯补充道,HUGS还支持姿态合成和新视角生成,适用于人类头像及其环境。
与早期方法相比,HUGS的训练和渲染速度提高了多达100倍。仅在标准游戏GPU上优化30分钟后,其结果即为逼真,超越了Vid2Avatar和NeuMan等先进技术在3D重建质量上的表现。
这一创新技术使用户能够仅通过一个视频,将数字头像放入新场景,图像每秒更新60次,提供流畅而真实的体验。想象一下,您可以直接从iPhone创建动态3D场景!
提升人工智能推理效率
在第二篇论文中,苹果研究人员针对在内存有限的设备上部署大型语言模型(LLM)所面临的关键挑战进行了讨论。像GPT-4这样的先进语言模型拥有数百亿参数,这使得在消费硬件上运行成本高昂。
该系统旨在减少推理过程中从闪存到有限DRAM的数据传输。主笔凯万·阿利扎德解释道:“我们构建了一个与闪存行为相匹配的推理成本模型,使我们能够优化数据传输,并以更大的块读取。”
研究引入了两种主要技术:“窗口处理”,可以重复使用最近的激活,和“行列捆绑”,通过将行和列组织在一起处理更大的数据块。在苹果M1 Max CPU上,这些方法使推理延迟提高了4-5倍,而GPU性能则提高了20-25倍。
合著者梅赫达德·法拉吉塔巴表示:“这一突破对于在资源受限的环境中部署高级语言模型至关重要,增强了它们的可访问性。”这些优化有助于复杂的人工智能助手和聊天机器人在iPhone、iPad及其他移动设备上流畅运行。
苹果的战略愿景
这些创新体现了苹果对人工智能研究和应用的承诺。然而,专家们呼吁谨慎,强调在特别涉及隐私和潜在滥用方面,需负责任地将技术整合到消费产品中。
随着苹果不断采用这些进步,它不仅在增强设备性能,同时还在预见对AI驱动服务的未来需求。为内存有限的设备优化复杂的AI模型,可能为以前被认为不可实现的新应用开启新篇章。
通过发布这项研究,苹果也为更广泛的人工智能社区做出了贡献,鼓励该领域的进一步发展。这一倡议体现了苹果作为技术领导者的信心,以及推动创新极限的决心。
如果我们以深思熟虑的方式看待,苹果最新的进展将可能重新定义人工智能的格局。如今,逼真的数字头像和强大的AI助手在便携设备上已经不再是遥不可及的梦想,这是由于苹果的开创性工作所铺平的道路。