Des chercheurs d'Apple ont dévoilé un système d'intelligence artificielle avancé qui améliore la compréhension des assistants vocaux face à des références ambiguës et au contexte environnant, facilitant ainsi des interactions plus naturelles. Cette innovation, décrite dans un article publié vendredi, s'appelle ReALM (Reference Resolution As Language Modeling).
ReALM utilise de grands modèles linguistiques pour transformer la tâche complexe de résolution de références, y compris l'identification d'éléments visuels à l'écran, en un défi de modélisation linguistique. Ce changement entraîne des améliorations significatives par rapport aux méthodes actuelles.
« Comprendre le contexte, y compris les références, est essentiel pour un assistant conversationnel », a déclaré l'équipe de recherche. « Permettre aux utilisateurs d'interroger le contenu visible à l'écran est vital pour vivre une expérience véritablement mains libres avec les assistants vocaux. »
Améliorer les Assistants Conversationnels
Une caractéristique remarquable de ReALM est sa capacité à reconstruire les visuels à l'écran en utilisant des entités analysées et leurs positions, générant une description textuelle en accord avec la mise en page visuelle. L'équipe a démontré que cette méthode, combinée à un réglage fin spécialisé des modèles linguistiques pour la résolution de références, surpasse les performances de GPT-4.
Le système d'IA d'Apple, ReALM, peut interpréter efficacement les références aux éléments à l'écran, comme la liste « 260 Sample Sale » dans un mockup, favorisant des interactions plus riches avec les assistants vocaux.
« Nous montrons des améliorations significatives par rapport aux systèmes existants pour gérer divers types de références, notre plus petit modèle atteignant plus de 5 % de gains en précision des références à l'écran », notent les chercheurs. « Nos modèles plus grands surpassent considérablement GPT-4. »
Applications Pratiques et Limitations
Cette recherche souligne le potentiel des modèles linguistiques ciblés pour réaliser des tâches comme la résolution de références dans des environnements de production, où de grands modèles end-to-end peuvent ne pas être pratiques en raison de la latence ou des restrictions de calcul. En partageant ces conclusions, Apple réaffirme son engagement à améliorer les capacités conversationnelles et contextuelles de Siri et d'autres produits.
Cependant, l'équipe reconnaît les défis de l'analyse automatique des écrans. Aborder des références visuelles complexes, comme différencier plusieurs images, peut nécessiter l'intégration de techniques de vision par ordinateur et multimodales.
Les Ambitions d'Apple en IA
Apple progresse rapidement dans la recherche en intelligence artificielle, bien qu'il soit actuellement à la traîne par rapport à ses concurrents dans la course à la domination de l'IA. Ses avancées récentes vont des modèles multimodaux intégrant des données visuelles et linguistiques à des outils d'animation alimentés par l’IA.
Malgré sa réputation d'approche prudente, Apple fait face à une forte concurrence de Google, Microsoft, Amazon et OpenAI, qui ont tous intégré agressivement l’IA générative dans leurs offres.
Alors que le paysage de l'IA évolue rapidement, Apple se trouve dans une position délicate. L'attente monte pour la prochaine Conférence Mondiale des Développeurs, où l'entreprise devrait présenter un nouveau cadre de modèle linguistique, surnommé « Apple GPT », ainsi que d'autres fonctionnalités alimentées par l'IA dans sa gamme de produits.
Le PDG Tim Cook a laissé entendre lors d'un appel sur les résultats financiers que des détails sur les initiatives d'IA en cours d'Apple seraient partagés plus tard cette année. Bien que la stratégie de l'entreprise reste discrète, l'ampleur de ses efforts en IA semble clairement en expansion.
Alors que la compétition pour la leadership en IA s'intensifie, l'entrée tardive d'Apple la place sous pression concurrentielle. Néanmoins, ses vastes ressources, sa fidélité à la marque, son ingénierie supérieure et son portefeuille de produits intégré lui offrent un avantage potentiel.
Une nouvelle ère de l'informatique intelligente se profile à l'horizon. En juin, nous saurons si Apple est suffisamment préparé pour influencer cette transformation.