苹果研究人员开发AI，能“看懂”屏幕内容以提升用户体验

Home AI News CN 苹果研究人员开发AI，能“看懂”屏幕内容以提升用户体验

苹果研究人员近日推出了一种先进的人工智能系统，旨在提高语音助手对模糊引用及其上下文的理解，从而实现更自然的互动。这项创新的研究成果在周五发布的论文中被命名为ReALM（参考解析作为语言建模）。

ReALM利用大型语言模型，将复杂的引用解析任务——包括识别屏幕上的视觉元素——转变为语言建模的挑战。这一转变显著提升了性能，超越了当前的方法。

研究团队表示：“理解上下文，包括引用，对于对话助手至关重要。让用户能够查询可见的屏幕内容是实现真正免提体验的关键。”

提升对话助手的能力

ReALM的一大亮点是能使用解析的实体及其位置重建屏幕上的视觉内容，生成与视觉布局相符的文本描述。团队展示了这种方法与针对引用解析的语言模型的特殊微调相结合，超越了GPT-4的性能。

苹果的AI系统ReALM能够有效解析屏幕上的项目引用，例如模拟图中的“260 Sample Sale”列表，促进与语音助手之间更加丰富的互动。

研究人员指出：“我们的最小模型在屏幕引用准确性上提升超过5%，而我们的更大模型则大幅超越GPT-4，处理各种引用类型表现显著。”

实际应用与局限性

这项研究强调了专注语言模型在生产环境中进行引用解析等任务的潜力，因为大型端到端模型在延迟或计算限制方面可能不太实用。通过分享这些发现，苹果重申了增强Siri及其他产品对话和上下文理解能力的承诺。

不过，研究团队也承认，自动屏幕解析面临挑战。处理复杂的视觉引用，例如区分多个图像，可能需要结合计算机视觉和多模态技术。

苹果的AI雄心

尽管在人工智能研究方面取得了快速进展，苹果目前在AI领域的竞争中仍略显滞后。其近期进展包括整合视觉和语言数据的多模态模型及AI驱动的动画工具。

虽然以谨慎著称，苹果仍面临来自谷歌、微软、亚马逊和OpenAI等公司的强大竞争，这些公司都在其产品中积极整合生成式AI技术。

随着AI格局迅速演变，苹果身处竞争压力之中。人们期待即将举行的全球开发者大会，届时该公司可能会推出新的大型语言模型框架“Apple GPT”及更多AI驱动的产品功能。

在一次财报电话会议中，CEO蒂姆·库克暗示，苹果将于今年晚些时候分享其AI计划的更多细节。尽管公司的策略仍保持低调，但显然其AI努力范围正在扩大。

随着AI领导地位的竞争加剧，苹果的“迟到”进入使其面临竞争压力。然而，凭借庞大的资源、品牌忠诚度、卓越的工程技术及一体化的产品组合，苹果仍具备一定的优势。

一个智能计算新时代即将到来。在6月，我们将见证苹果是否为影响这一变革做好了充分准备。

与Salesforce新推出的Einstein Copilot一起踏上数据分析之旅！

微软与英伟达在GTC发布全新整合与创新技术

Most people like

ChatKit

19.5K

通过优化用户界面和实用功能，提升ChatGPT的使用体验。

用户界面 AI开发工具

GlobalSeo AI

在这个全球化时代，AI技术使我们能够轻松将网站翻译成93种语言，打破语言障碍，拓宽国际市场。在这个介绍中，我们将探讨AI翻译工具的优势、使用方法以及如何提升您的在线业务。让我们一起发现如何利用AI翻译增强您的网站的可及性和吸引力。

AI网站翻译翻译

iCustoms

9.1K

全球企业在海关申报方面面临着诸多挑战。随着国际贸易的不断增长，海关流程的复杂性也随之增加。为了提高申报效率和准确性，越来越多的企业开始采用人工智能解决方案。这些创新技术不仅能简化海关申报流程，还能有效降低错误率，确保与全球合规标准的对接。本文将探讨如何利用人工智能提高全球企业的海关申报效率，推动贸易顺畅进行。

报关 AI CRM助手

Patched

15.7K

开源自动化工具是开发团队提升工作效率、简化工作流的重要利器。借助这些工具，团队可以更轻松地管理任务、优化流程，从而专注于核心工作。

工作流自动化大型语言模型（LLMs）

Find AI tools in YBX