苹果研究人员开发AI,能“看懂”屏幕内容以提升用户体验

苹果研究人员近日推出了一种先进的人工智能系统,旨在提高语音助手对模糊引用及其上下文的理解,从而实现更自然的互动。这项创新的研究成果在周五发布的论文中被命名为ReALM(参考解析作为语言建模)。

ReALM利用大型语言模型,将复杂的引用解析任务——包括识别屏幕上的视觉元素——转变为语言建模的挑战。这一转变显著提升了性能,超越了当前的方法。

研究团队表示:“理解上下文,包括引用,对于对话助手至关重要。让用户能够查询可见的屏幕内容是实现真正免提体验的关键。”

提升对话助手的能力

ReALM的一大亮点是能使用解析的实体及其位置重建屏幕上的视觉内容,生成与视觉布局相符的文本描述。团队展示了这种方法与针对引用解析的语言模型的特殊微调相结合,超越了GPT-4的性能。

苹果的AI系统ReALM能够有效解析屏幕上的项目引用,例如模拟图中的“260 Sample Sale”列表,促进与语音助手之间更加丰富的互动。

研究人员指出:“我们的最小模型在屏幕引用准确性上提升超过5%,而我们的更大模型则大幅超越GPT-4,处理各种引用类型表现显著。”

实际应用与局限性

这项研究强调了专注语言模型在生产环境中进行引用解析等任务的潜力,因为大型端到端模型在延迟或计算限制方面可能不太实用。通过分享这些发现,苹果重申了增强Siri及其他产品对话和上下文理解能力的承诺。

不过,研究团队也承认,自动屏幕解析面临挑战。处理复杂的视觉引用,例如区分多个图像,可能需要结合计算机视觉和多模态技术。

苹果的AI雄心

尽管在人工智能研究方面取得了快速进展,苹果目前在AI领域的竞争中仍略显滞后。其近期进展包括整合视觉和语言数据的多模态模型及AI驱动的动画工具。

虽然以谨慎著称,苹果仍面临来自谷歌、微软、亚马逊和OpenAI等公司的强大竞争,这些公司都在其产品中积极整合生成式AI技术。

随着AI格局迅速演变,苹果身处竞争压力之中。人们期待即将举行的全球开发者大会,届时该公司可能会推出新的大型语言模型框架“Apple GPT”及更多AI驱动的产品功能。

在一次财报电话会议中,CEO蒂姆·库克暗示,苹果将于今年晚些时候分享其AI计划的更多细节。尽管公司的策略仍保持低调,但显然其AI努力范围正在扩大。

随着AI领导地位的竞争加剧,苹果的“迟到”进入使其面临竞争压力。然而,凭借庞大的资源、品牌忠诚度、卓越的工程技术及一体化的产品组合,苹果仍具备一定的优势。

一个智能计算新时代即将到来。在6月,我们将见证苹果是否为影响这一变革做好了充分准备。

Most people like

Find AI tools in YBX