苹果推出新款AI助手:具备屏幕理解与语音响应功能

苹果推出ReALM:一项革命性的人工智能系统

4月2日,苹果研究团队发布了一篇论文,宣布成功开发了一种名为ReALM(Reference Resolution As Language Modeling)的创新人工智能系统。该系统旨在准确解读屏幕上的模糊内容及其相关对话和上下文,从而促进与语音助手的自然互动。

ReALM利用大型语言模型,将理解屏幕视觉元素这一复杂任务简化为基于语言的查询。这一转变显著提升了其性能,相较于现有技术具有更大的优势。研究团队表示:“对于对话助手来说,理解上下文至关重要,这使得用户能够根据屏幕内容提问,从而实现真正的语音操作体验。”

提升对话助手功能

ReALM的一大亮点是其通过分析信息及空间关系重建屏幕内容的能力,进而生成文本表示。这一能力对于捕捉界面的视觉布局至关重要。研究人员展示了该方法与语言模型结合时,在相关任务上优于GPT-4的表现。他们指出:“我们在现有系统上取得了显著的进步,在处理各种内容引用时性能提升超过5%,并在更大模型上显著超越了GPT-4。”

实际应用与局限性

这项研究凸显了语言模型在内容引用解析等任务中的巨大潜力。然而,大型端到端模型在实现过程中常常面临响应时间和计算资源的限制。通过这项创新研究,苹果展示了其不断增强Siri等产品对话能力和上下文理解的承诺。尽管如此,研究人员警告说,自动解读屏幕内容仍面临挑战,特别是在处理复杂视觉数据时,可能需要与计算机视觉和多模态技术的整合。

缩小与AI竞争者的差距

尽管苹果在人工智能领域入局较晚,但近年来已取得显著进展。从集成视觉和语言能力的多模态模型,到人工智能驱动的动画工具和高性能专业AI技术,苹果的实验室持续实现技术突破。随着谷歌、微软、亚马逊和OpenAI等竞争对手在搜索和办公软件等领域发布先进的AI产品,苹果正积极追赶。

历史上,苹果在创新方面采取保守态度,但如今面临着快速发展的AI市场。在即将于6月举行的全球开发者大会上,预计苹果将推出新的大型语言模型框架、一款名为“AppleGPT”的聊天机器人以及其他AI功能。首席执行官蒂姆·库克在一次财报电话会议中提到:“我们期待在今年晚些时候分享我们在AI领域的进展。”尽管保持低调,苹果在AI领域的努力正引起行业的关注。

尽管在竞争中相对滞后给苹果带来挑战,但其强大的财务状况、品牌忠诚度、一流的工程团队以及无缝的产品集成为其扭转局面打下了坚实基础。

Most people like

Find AI tools in YBX