在2024年移动世界大会上,高通将其基于骁龙系列的AI能力进一步扩展,尤其针对安卓设备。公司已亮相一些骁龙8 Gen 3旗舰芯片的卓越AI功能,包括语音激活的媒体编辑、基于Stable Diffusion的设备内图像生成,以及利用Meta大型语言模型的先进虚拟助手。
今天,高通介绍了这些AI功能的增强版。其中一项关键新功能是专为智能手机设计的大型语言与视觉助手(LLaVa)。这个创新工具像聊天机器人(如ChatGPT),但集成了Google Lens的能力,让高通的解决方案能够同时处理文本输入和图像。
例如,您可以上传一个拼盘的照片并询问其内容。建立在超过70亿参数的大型多模态模型(LMM)上的AI助手,将识别出图像中的各种水果、奶酪、肉类和坚果。同时,它还能够处理后续问题,保持对话的自然流畅性。尽管ChatGPT等产品也添加了多模态能力,但它们依赖于云端架构,涉及远程服务器的数据处理。而高通的解决方案则专注于设备内处理,确保更快的响应和更强的隐私保护,极大地降低了数据泄露的风险。高通强调:“该LMM在设备上以响应性极高的速度运行,带来了更大的隐私、安全性、个性化和成本效益。”关于高通的LLaVa虚拟助手是否会作为独立应用推出或收取费用,目前尚未确认。
高通的另一个重要公告涉及图像生成与处理的创意方面。最近,高通展示了使用Stable Diffusion技术在智能手机上进行的世界最快文本到图像生成。今天,公司提供了基于LoRA进行图像生成的预览。
LoRA(低秩适应)是微软开发的新技术,在图像生成方面提供了一种与传统生成AI工具(如DALL·E)不同的方法。训练AI模型通常成本高、速度慢且需大量硬件支持,而LoRA通过显著减轻模型重量、聚焦于特定部分并在训练过程中限制参数数量,有效应对这些挑战。这降低了内存需求,实现了更快的操作,极大地简化了文本到图像模型的适应过程。
LoRA蒸馏方法已被有效整合到Stable Diffusion模型中,用于从文本提示生成图像。由于其高效性和易适应性,LoRA被认为非常适合在智能手机上使用。高通对其潜力充满信心,甚至竞争对手联发科技也在其旗舰Dimensity 9300芯片上采用这种方法来实现生成AI功能。
在MWC 2024上,高通还展示了多项AI功能,其中一些已经在三星Galaxy S24 Ultra上可用。这些功能包括使用生成AI填充扩展图像画布的能力,以及兼具雄心的视频生成能力。期待高通能成功将这些先进技术应用于智能手机。