ユーザーインターフェース(UI)でのインタラクションを通じてユーザーの意図を把握することは、直感的かつ効果的なAIアプリケーションを開発する上で大きな課題です。最近の研究で、Appleの研究チームはUI理解の計算負荷を最小化しながら高いパフォーマンスを実現するための新しいアーキテクチャ「UI-JEPA」を発表しました。UI-JEPAにより、軽量でデバイス上でのUI理解が可能になり、AIアシスタントアプリケーションの応答性とプライバシーが向上します。これは、Appleが推進するオンデバイスAI機能の向上という広範な戦略にも合致しています。
UI理解の課題
UIインタラクションからユーザーの意図を導き出すためには、画像や自然言語を含むクロスモーダルな特徴の分析が必要です。これにより、UIシーケンス内の時間的関係を把握することができます。Appleの機械学習リサーチャーインターンであるYicheng Fu氏と、Principal ML ScientistのRaviteja Anantha氏は、「Anthropic Claude 3.5 SonnetやOpenAI GPT-4 Turboのようなマルチモーダル大規模言語モデル(MLLM)がユーザーコンテキストを取り入れることでパーソナライズの機会を提供しますが、これらのモデルは膨大な計算リソースを必要とし、高い遅延を引き起こします。このため、低遅延とプライバシーが重要な軽量デバイス向けアプリケーションには適していません」と述べています。
一方、既存の軽量モデルは、ユーザー意図を分析するには計算負荷が高すぎるという問題があります。
JEPAアーキテクチャ
UI-JEPAは、2022年にMeta AIのチーフサイエンティストであるYann LeCunによって確立された自己教師あり学習手法「Joint Embedding Predictive Architecture(JEPA)」に触発されています。JEPAは、画像や動画内のマスクされた部分を予測することで意味的な表現を学ぶことに重点を置いており、全てのディテールを再構築するのではなく、重要なシーンの側面に焦点を当てています。
問題の次元を大幅に削減することで、JEPAはより小さなモデルが豊かな表現を獲得することを可能にします。さらに、自己教師ありアルゴリズムであるため、膨大な量のラベルなしデータを用いてトレーニングができ、手動でのアノテーションコストを削減します。Metaはこれまでに画像と動画用の特化したI-JEPAとV-JEPAを導入しています。
Fu氏とAnantha氏は、「生成モデルが全ての欠損情報を埋めようとする一方、JEPAは無駄なデータを効率的に排除します。このため、V-JEPAではトレーニングとサンプル効率が1.5から6倍向上し、高品質なラベル付きUI動画が不足している状況を考えると重要です」と説明しています。
UI-JEPA:新たなフロンティア
JEPAの強みを活かしたUI-JEPAは、UI理解のためにアーキテクチャを調整し、ビデオ変換エンコーダとデコーダ専用の言語モデルの2つの重要なコンポーネントを統合しています。ビデオ変換エンコーダは、UIインタラクションの動画を処理し、それらを抽象的な特徴表現に変換します。一方、言語モデルはこれらのビデオ埋め込みを活用してユーザー意図のテキスト記述を生成します。約30億パラメータを持つ軽量モデルMicrosoft Phi-3を使用することで、UI-JEPAはオンデバイスアプリケーションにおいて優れた性能を発揮します。
JEPAに基づくエンコーダと軽量言語モデルのシナジーにより、UI-JEPAは最新のMLLMよりも大幅に少ないパラメータ数と計算資源で優れた性能を実現します。
UI理解の研究促進
研究チームは、多様なモダリティを持つ2つのマルチモーダルデータセット「Intent in the Wild」(IIW)と「Intent in the Tame」(IIT)を導入しました。IIWはあいまいな意図を持つUIアクションのオープンエンドなシーケンスを含み、IITはリマインダーの設定などのより明確なタスクに焦点を当てています。「これらのデータセットが、より強力かつコンパクトなMLLMの開発と、優れたトレーニング手法の構築に寄与すると信じています」と研究者たちは述べています。
UI-JEPAの評価
UI-JEPAの性能評価は、他のビデオエンコーダやGPT-4 Turbo、Claude 3.5 SonnetのようなMLLMとの比較によって行われました。結果、UI-JEPAはIIWとIITデータセットの両方において、数ショットシナリオで優れた性能を発揮し、4.4億パラメータという大幅に軽量なモデルでありながら、大規模なクローズドモデルと同等の性能を達成しました。OCRを介してテキストを取り入れることでその効果はさらに向上しましたが、UI-JEPAはゼロショット設定では課題に直面しました。
研究者たちは、UI-JEPAのいくつかの応用を想定しています。その一つが、AIエージェント用の自動フィードバックループの構築であり、ユーザーとのインタラクションから手動入力なしで継続的に学習することができます。この機能により、アノテーションコストが大幅に削減され、ユーザーのプライバシーも保護されます。
「エージェントがUI-JEPAを通じてデータを集めることで、応答がますます洗練されていきます」と著者は述べています。「さらに、UI-JEPAの画面上のコンテキスト処理能力により、LLMベースのプランナーのためのプロンプトが改善され、複雑または暗黙のクエリに対してニュアンスのある計画を生成できます」。
加えて、UI-JEPAは、さまざまなアプリケーションとモダリティを通じてユーザー意図を追跡するために設計されたフレームワークに統合することも可能です。この場合、UI-JEPAは知覚エージェントとして機能し、デジタルアシスタントとのインタラクション中に関連するユーザー意図を取得して適切なAPI呼び出しを生成します。
「UI-JEPAは、ユーザーの好みにより密接に関連し、画面上のアクティビティデータに基づいて行動を予測することで、あらゆるAIエージェントフレームワークを強化します」とFu氏とAnantha氏は説明しています。「時間的および地理的データを組み合わせることで、さまざまなアプリケーションに対してユーザーの意図を推測できます」。UI-JEPAは、Appleのデバイスのスマートで生産的な機能を向上させる軽量な生成AIツール群であるApple Intelligenceとも相性が良く、Appleが追求するプライバシーへの取り組みと相まって、クラウド依存モデルに対して大きな優位性を提供します。