理解用戶意圖透過用戶介面(UI)互動對於開發直觀且高效的AI應用程序來說是一個重大挑戰。最近,Apple的研究人員提出了UI-JEPA,這是一種創新的架構,旨在減少UI理解的計算需求,同時提供高性能。UI-JEPA促進了輕量級的本地UI理解,提高了AI助手應用的反應速度和隱私性,與Apple推動本地AI能力的整體策略相一致。
UI理解的挑戰
從UI互動中推導用戶意圖需要分析多模態特徵,包括圖像和自然語言,以了解UI序列中的時間關係。Apple的機器學習研究實習生袁承傅和Apple首席ML科學家Raviteja Anantha表示:“儘管類似Anthropic Claude 3.5 Sonnet和OpenAI GPT-4 Turbo等多模態大型語言模型(MLLMs)在融合用戶上下文提供個性化體驗方面取得了進展,但這些模型需要大量計算資源,且延遲較高,使其不適合需要低延遲和隱私的輕量級本地應用。”
相對而言,目前的輕量級模型雖能分析用戶意圖,但仍過於計算密集,無法在設備上有效執行。
JEPA架構
UI-JEPA受到Meta AI首席科學家Yann LeCun於2022年提出的關聯嵌入預測架構(JEPA)的啟發。JEPA專注於通過預測圖像或視頻中的遮罩區域來學習語義表示,重點關注場景中的重要方面,而非重建每一個細節。透過大幅降低問題的維度,JEPA使得較小模型能夠獲得豐富的表示。此外,作為自我監督算法,它可以在大量未標記數據上進行訓練,從而避免昂貴的人工標註。Meta之前推出的I-JEPA和V-JEPA則分別針對圖像和視頻進行了調整。
袁承傅和Raviteja Anantha解釋道:“不同於致力於填補所有缺失信息的生成模型,JEPA有效地剔除多餘數據,這在V-JEPA中將訓練和樣本效率提升了1.5到6倍,這對於高質量標記UI視頻的稀缺性極為重要。”
UI-JEPA:新篇章
在JEPA的優勢基礎上,UI-JEPA調整了架構以適應UI理解,結合了兩個關鍵組件:視頻變壓器編碼器和僅解碼的語言模型。視頻變壓器編碼器處理UI互動的視頻,將其轉換為抽象特徵表示,而語言模型則利用這些視頻嵌入生成用戶意圖的文本描述。UI-JEPA採用大約30億參數的輕量級模型Microsoft Phi-3,這使其在本地應用中表現出色。
這種基於JEPA的編碼器與輕量級語言模型的協同作用使UI-JEPA在參數和計算需求上幾乎比頂尖的MLLMs少許多,卻仍能實現令人印象深刻的性能。為了推動UI理解研究,團隊推出了兩個多模態數據集和基準:“在野外的意圖”(IIW)和“在控制下的意圖”(IIT)。IIW包括不確定意圖的無限序列UI動作,而IIT專注於更具體的任務,如設置提醒。“我們相信這些數據集將促進更強大且緊湊的MLLMs和更好的訓練範式的發展,”研究人員指出。
評估UI-JEPA
對UI-JEPA與其他視頻編碼器及MLLM(如GPT-4 Turbo和Claude 3.5 Sonnet)的性能評估顯示,UI-JEPA在IIT和IIW數據集的少量示例情境下表現卓越。它的性能與更大型的封閉模型相當,然而,參數卻輕巧至僅有44億。通過光學字符識別(OCR)引入文本進一步提升了其有效性,但在零樣本設定下,UI-JEPA面臨了一些挑戰。
研究人員展望UI-JEPA的幾個應用,其中之一是建立AI代理的自動反饋迴路,使其能夠在無需人工輸入的情況下持續從用戶互動中學習。此功能有助於大幅降低標註成本,同時保護用戶隱私。“隨著代理通過UI-JEPA收集更多數據,其回應將越來越精確,”作者指出。“此外,UI-JEPA處理當前屏幕上下文的能力提升了LLM規劃器的提示,改善了對複雜或隱含查詢的細緻計劃生成。”
此外,UI-JEPA可以整合到旨在追蹤用戶意圖的各種應用和模式的框架中。在這個角色中,它可以作為感知代理,檢索相關的用戶意圖,以便在用戶與數位助手互動時生成適當的API調用。“UI-JEPA使任何AI代理框架的性能得以提升,更加貼合用戶偏好,並根據螢幕活動數據預測行動,”袁承傅和Anantha解釋道。“當與時間和地理數據結合時,它能夠推斷用戶意圖,用於多種應用。”UI-JEPA與Apple Intelligence高度契合,這是一系列輕量級生成AI工具,增強Apple設備的智能和生產力。考慮到Apple對隱私的承諾,UI-JEPA的高效性能和低資源需求使其可以相對於依賴雲端的模型提供顯著優勢。