理解用户意图通过用户界面(UI)交互,对于开发直观且有效的人工智能应用程序来说,是一项重大挑战。最近,苹果公司的研究人员推出了UI-JEPA,这是一种创新架构,旨在降低UI理解的计算需求,同时保持高性能。UI-JEPA支持轻量级的本地UI理解,提升了AI助手应用的响应速度和隐私保护,符合苹果公司推动本地人工智能能力的整体战略。
UI理解的挑战
从UI交互中推导用户意图需要分析跨模态特征,包括图像和自然语言,以理解UI序列中的时间关系。苹果公司的机器学习研究实习生傅奕城和首席机器学习科学家Raviteja Anantha表示:“尽管像Anthropic Claude 3.5 Sonnet和OpenAI GPT-4 Turbo这样的多模态大型语言模型(MLLM)为个性化服务提供了机会,但它们需要大量计算资源,并存在较高延迟,因此不适合对延迟和隐私要求较高的轻量级本地应用。”现有的轻量级用户意图分析模型也过于复杂,难以在设备上高效运行。
JEPA架构
UI-JEPA受到Meta AI首席科学家Yann LeCun于2022年提出的联合嵌入预测架构(JEPA)启发。JEPA通过预测图像或视频中被遮挡的部分,专注于学习语义表示,这样可以在不重建每个细节的情况下,提取场景的关键信息。JEPA通过大幅降低问题维度,使得小模型能够获取丰富的信息表示。此外,作为一种自监督算法,它可以在大量无标签数据上进行训练,从而避免昂贵的手动标注。Meta公司之前推出了针对图像和视频的I-JEPA和V-JEPA。
傅奕城和Raviteja Anantha解释道:“与生成模型试图填补所有缺失信息不同,JEPA高效地丢弃冗余数据,这在V-JEPA中提高了训练和采样效率1.5到6倍,尤其考虑到高质量标签UI视频的稀缺。”
UI-JEPA:新的前沿
UI-JEPA在JEPA的基础上,调整架构以实现UI理解,集成了两个关键组件:视频变换编码器和仅解码语言模型。视频变换编码器处理UI交互的视频,将其转化为抽象特征表示,而语言模型利用这些视频嵌入生成用户意图的文本描述。利用大约30亿参数的轻量级模型Microsoft Phi-3,UI-JEPA在本地应用中表现出色。
这套基于JEPA的编码器与轻量级语言模型的结合,使UI-JEPA在参数和计算需求上远低于最先进的MLLM,但仍能实现卓越性能。为了推动UI理解研究,团队发布了两个多模态数据集和基准测试:“野外意图”(IIW)和“驯化意图”(IIT)。IIW包含开放式的UI动作序列,意图模糊,而IIT则关注更明确的任务,如设置提醒。研究人员表示:“我们相信这些数据集将促进更强大且紧凑的MLLM的发展与训练模式的改进。”
评估UI-JEPA
对UI-JEPA与其他视频编码器及MLLM(如GPT-4 Turbo和Claude 3.5 Sonnet)的性能评估显示,UI-JEPA在IIT和IIW数据集的少量样本场景中表现优异,能够以44亿参数的轻量化设计,达到与更大封闭模型相当的性能。通过光学字符识别(OCR)引入文本,进一步提高了其有效性,尽管在零样本场景中存在一些挑战。
研究人员设想了多种UI-JEPA的应用,其中之一是为AI代理建立自动反馈循环,使其能够在没有人工输入的情况下,从用户交互中持续学习。这种功能可以显著降低标注成本,同时保护用户隐私。作者指出:“随着代理通过UI-JEPA收集更多数据,它们在应对用户需求时会变得更加灵活。此外,UI-JEPA处理持续屏幕上下文的能力,增强了基于LLM的计划生成,从而能够为复杂或隐性查询生成更细致的计划。”
此外,UI-JEPA还可整合进设计用于追踪用户意图的多样化应用与模态的框架中。在这一角色中,它可以作为感知代理,检索相关用户意图,以在用户与数字助手交互时生成适当的API调用。傅奕城和Raviteja Anantha解释道:“UI-JEPA通过更紧密地与用户偏好对齐,并根据屏幕活动数据预测行为,增强了任何AI代理框架。当结合时间和地理数据时,它能够推断出广泛应用的用户意图。”UI-JEPA与苹果的智能工具套件相得益彰,能够增强苹果设备的智能和生产能力。鉴于苹果致力于保护隐私,UI-JEPA的高效性和低资源需求相较于依赖云计算的模型,提供了显著的优势。