苹果通过UI-JEPA模型提升设备内用户意图识别能力

Home AI News CN 苹果通过UI-JEPA模型提升设备内用户意图识别能力

理解用户意图通过用户界面（UI）交互，对于开发直观且有效的人工智能应用程序来说，是一项重大挑战。最近，苹果公司的研究人员推出了UI-JEPA，这是一种创新架构，旨在降低UI理解的计算需求，同时保持高性能。UI-JEPA支持轻量级的本地UI理解，提升了AI助手应用的响应速度和隐私保护，符合苹果公司推动本地人工智能能力的整体战略。

UI理解的挑战

从UI交互中推导用户意图需要分析跨模态特征，包括图像和自然语言，以理解UI序列中的时间关系。苹果公司的机器学习研究实习生傅奕城和首席机器学习科学家Raviteja Anantha表示：“尽管像Anthropic Claude 3.5 Sonnet和OpenAI GPT-4 Turbo这样的多模态大型语言模型（MLLM）为个性化服务提供了机会，但它们需要大量计算资源，并存在较高延迟，因此不适合对延迟和隐私要求较高的轻量级本地应用。”现有的轻量级用户意图分析模型也过于复杂，难以在设备上高效运行。

JEPA架构

UI-JEPA受到Meta AI首席科学家Yann LeCun于2022年提出的联合嵌入预测架构（JEPA）启发。JEPA通过预测图像或视频中被遮挡的部分，专注于学习语义表示，这样可以在不重建每个细节的情况下，提取场景的关键信息。JEPA通过大幅降低问题维度，使得小模型能够获取丰富的信息表示。此外，作为一种自监督算法，它可以在大量无标签数据上进行训练，从而避免昂贵的手动标注。Meta公司之前推出了针对图像和视频的I-JEPA和V-JEPA。

傅奕城和Raviteja Anantha解释道：“与生成模型试图填补所有缺失信息不同，JEPA高效地丢弃冗余数据，这在V-JEPA中提高了训练和采样效率1.5到6倍，尤其考虑到高质量标签UI视频的稀缺。”

UI-JEPA：新的前沿

UI-JEPA在JEPA的基础上，调整架构以实现UI理解，集成了两个关键组件：视频变换编码器和仅解码语言模型。视频变换编码器处理UI交互的视频，将其转化为抽象特征表示，而语言模型利用这些视频嵌入生成用户意图的文本描述。利用大约30亿参数的轻量级模型Microsoft Phi-3，UI-JEPA在本地应用中表现出色。

这套基于JEPA的编码器与轻量级语言模型的结合，使UI-JEPA在参数和计算需求上远低于最先进的MLLM，但仍能实现卓越性能。为了推动UI理解研究，团队发布了两个多模态数据集和基准测试：“野外意图”（IIW）和“驯化意图”（IIT）。IIW包含开放式的UI动作序列，意图模糊，而IIT则关注更明确的任务，如设置提醒。研究人员表示：“我们相信这些数据集将促进更强大且紧凑的MLLM的发展与训练模式的改进。”

评估UI-JEPA

对UI-JEPA与其他视频编码器及MLLM（如GPT-4 Turbo和Claude 3.5 Sonnet）的性能评估显示，UI-JEPA在IIT和IIW数据集的少量样本场景中表现优异，能够以44亿参数的轻量化设计，达到与更大封闭模型相当的性能。通过光学字符识别（OCR）引入文本，进一步提高了其有效性，尽管在零样本场景中存在一些挑战。

研究人员设想了多种UI-JEPA的应用，其中之一是为AI代理建立自动反馈循环，使其能够在没有人工输入的情况下，从用户交互中持续学习。这种功能可以显著降低标注成本，同时保护用户隐私。作者指出：“随着代理通过UI-JEPA收集更多数据，它们在应对用户需求时会变得更加灵活。此外，UI-JEPA处理持续屏幕上下文的能力，增强了基于LLM的计划生成，从而能够为复杂或隐性查询生成更细致的计划。”

此外，UI-JEPA还可整合进设计用于追踪用户意图的多样化应用与模态的框架中。在这一角色中，它可以作为感知代理，检索相关用户意图，以在用户与数字助手交互时生成适当的API调用。傅奕城和Raviteja Anantha解释道：“UI-JEPA通过更紧密地与用户偏好对齐，并根据屏幕活动数据预测行为，增强了任何AI代理框架。当结合时间和地理数据时，它能够推断出广泛应用的用户意图。”UI-JEPA与苹果的智能工具套件相得益彰，能够增强苹果设备的智能和生产能力。鉴于苹果致力于保护隐私，UI-JEPA的高效性和低资源需求相较于依赖云计算的模型，提供了显著的优势。

Kubernetes攻击不断攀升：实时威胁检测如何保护企业安全

解读OpenAI新发布的o1-Preview和o1-Mini模型：开发者必知的关键要点