Comprendre les intentions des utilisateurs à travers les interactions d'interface utilisateur (IU) représente un défi majeur pour le développement d'applications d'IA intuitives et efficaces. Dans une étude récente, des chercheurs d'Apple ont présenté UI-JEPA, une architecture innovante destinée à minimiser les exigences de calcul liées à la compréhension de l'IU tout en garantissant des performances élevées. UI-JEPA permet une compréhension légère et locale de l'IU, renforçant la réactivité et la confidentialité des applications d'assistance IA, en accord avec la stratégie plus large d'Apple d'améliorer les capacités d'IA sur les appareils.
Les Défis de la Compréhension de l'IU
Déduire l'intention de l'utilisateur à partir des interactions IU nécessite l'analyse de caractéristiques multimodales, y compris des images et du langage naturel, afin de saisir les relations temporelles au sein des séquences IU. Les co-auteurs Yicheng Fu, stagiaire chercheur en apprentissage automatique chez Apple, et Raviteja Anantha, scientifique principal en IA chez Apple, affirment : « Bien que les avancées des modèles de langage multimodaux (MLLMs) comme Anthropic Claude 3.5 Sonnet et OpenAI GPT-4 Turbo offrent des opportunités de personnalisation en intégrant des contextes utilisateurs, ces modèles exigent des ressources computationnelles considérables et introduisent une latence élevée, les rendant inadaptés aux applications légères sur appareils où la latence et la confidentialité sont cruciales. » En revanche, les modèles légers existants capables d'analyser l'intention des utilisateurs restent trop gourmands en ressources pour une exécution efficace sur les appareils.
L'Architecture JEPA
UI-JEPA s'inspire de l'Architecture Prédictive par Embeddings Unifiés (JEPA), une méthode d'apprentissage autonome établie par Yann LeCun, scientifique en chef chez Meta AI, en 2022. JEPA se concentre sur l'apprentissage de représentations sémantiques en prédisant des sections masquées dans des images ou des vidéos, mettant l'accent sur les aspects essentiels de la scène plutôt que de reconstruire chaque détail. En réduisant considérablement la dimensionnalité du problème, JEPA permet à des modèles plus petits d'acquérir des représentations riches. De plus, étant un algorithme auto-supervisé, il peut être formé sur de grandes quantités de données non étiquetées, évitant ainsi l'annotation manuelle coûteuse. Meta a précédemment introduit I-JEPA et V-JEPA, des adaptations ciblant respectivement des images et des vidéos. « Contrairement aux modèles génératifs qui s'efforcent de combler toutes les informations manquantes, JEPA élimine efficacement les données superflues, » expliquent Fu et Anantha. « Cela améliore l'efficacité d'entraînement et d'échantillonnage par un facteur de 1,5 à 6 dans V-JEPA, ce qui est crucial compte tenu de la rareté des vidéos IU étiquetées de haute qualité. »
UI-JEPA : Une Nouvelle Frontière
S'appuyant sur les forces de JEPA, UI-JEPA adapte l'architecture pour la compréhension de l'IU, intégrant deux composants clés : un encodeur de transformateur vidéo et un modèle de langage uniquement décodeur. L’encodeur de transformateur vidéo traite les vidéos d'interactions IU, les traduisant en représentations abstraites, tandis que le modèle de langage utilise ces embeddings vidéo pour générer des descriptions textuelles de l'intention de l'utilisateur. Utilisant Microsoft Phi-3, un modèle léger d'environ 3 milliards de paramètres, UI-JEPA excelle dans les applications sur appareil. Cette synergie entre un encodeur basé sur JEPA et un modèle de langage léger permet à UI-JEPA d'atteindre des performances impressionnantes avec significativement moins de paramètres et d'exigences computationnelles que les MLLMs de pointe. Pour promouvoir la recherche sur la compréhension de l'IU, l'équipe a introduit deux ensembles de données multimodales et des références, « Intent in the Wild » (IIW) et « Intent in the Tame » (IIT). IIW comprend des séquences ouvertes d'actions IU avec une intention ambiguë, tandis que IIT se concentre sur des tâches plus définies, telles que la création de rappels. « Nous croyons que ces ensembles de données amélioreront le développement de MLLMs plus puissants et compacts ainsi que de meilleurs paradigmes d'entraînement, » affirment les chercheurs.
Évaluation de UI-JEPA
L'évaluation des performances de UI-JEPA par rapport à d'autres encodeurs vidéo et MLLMs comme GPT-4 Turbo et Claude 3.5 Sonnet a montré que UI-JEPA se distingue dans des scénarios à peu d'exemples sur les ensembles de données IIT et IIW. Il a atteint une performance comparable à celle de modèles fermés plus grands tout en étant considérablement plus léger avec seulement 4,4 milliards de paramètres. L'intégration de texte via la reconnaissance optique de caractères (OCR) a encore amélioré son efficacité, bien que UI-JEPA ait rencontré des défis dans des contextes zéro-shot. Les chercheurs envisagent plusieurs applications pour UI-JEPA, l'une étant l'établissement de boucles de rétroaction automatisées pour les agents IA, permettant un apprentissage continu à partir des interactions des utilisateurs sans intervention manuelle. Cette fonctionnalité pourrait considérablement réduire les coûts d'annotation tout en préservant la confidentialité des utilisateurs. « Au fur et à mesure que les agents collectent davantage de données grâce à UI-JEPA, ils deviennent de plus en plus compétents dans leurs réponses, » ont noté les auteurs. « De plus, la capacité de UI-JEPA à traiter les contextes d'écran en cours améliore les invites pour les planificateurs basés sur LLM, optimisant la génération de plans nuancés pour des requêtes complexes ou implicites. »
De plus, UI-JEPA pourrait être intégré dans des cadres conçus pour suivre l’intention des utilisateurs à travers diverses applications et modalités. Dans ce rôle, il peut agir en tant qu'agent de perception, récupérant les intentions pertinentes pour générer des appels API appropriés lors d'interactions des utilisateurs avec des assistants numériques. « UI-JEPA améliore tout cadre d'agent IA en s'alignant plus étroitement sur les préférences des utilisateurs et en prédisant les actions basées sur les données d'activité à l'écran, » expliquent Fu et Anantha. « Combiné à des données temporelles et géographiques, il peut inférer l'intention utilisateur pour une large gamme d'applications. » UI-JEPA s'aligne parfaitement avec Apple Intelligence, une suite d'outils d'IA générative légers qui améliorent les capacités intelligentes et productives des appareils Apple. Étant donné l'engagement d'Apple en matière de confidentialité, l'efficacité et les faibles exigences en ressources de UI-JEPA peuvent offrir un avantage considérable par rapport aux modèles dépendants du cloud.