L'équipe de recherche d'Apple dévoile un système d'IA doté de la capacité de 'Vision' pour comprendre le contenu des écrans.

Les chercheurs d'Apple ont développé un système d'intelligence artificielle révolutionnaire appelé ReALM (Reference Resolution As Language Modeling), qui améliore la façon dont les assistants numériques interprètent les références vagues et le contexte de dialogue, rendant les interactions plus naturelles. Cette avancée innovante a récemment été annoncée.

ReALM utilise de grands modèles linguistiques pour transformer des tâches complexes de résolution de références—comme la compréhension des éléments visuels à l'écran—en défis de modélisation linguistique. Selon l'équipe de recherche d'Apple, cette approche surpasse de manière significative les méthodes traditionnelles. Ils ont déclaré : « Comprendre le contexte et les références est essentiel pour les assistants conversationnels. Permettre aux utilisateurs d'interroger le contenu à l'écran est une étape clé vers une expérience vraiment mains libres. »

Une des avancées majeures de ReALM dans la résolution de références est sa capacité à repositionner les entités à l'écran grâce à l'analyse des emplacements, générant une représentation textuelle qui conserve la mise en page visuelle. Les tests ont montré que cette méthode, lorsqu'elle est combinée avec des modèles linguistiques spécifiquement ajustés pour la résolution de références, surpasse les performances de GPT-4. Les chercheurs ont commenté : « Notre système a considérablement amélioré les performances sur divers types de références, réalisant un gain absolu de plus de 5 % dans les tâches impliquant des références à l'écran avec le modèle plus petit, tandis que le modèle plus grand a largement surpassé GPT-4. »

Cette étude souligne le potentiel des modèles linguistiques spécialisés pour aborder les tâches de résolution de références. Dans des scénarios pratiques, le déploiement de modèles massifs de bout en bout peut être impraticable en raison de la latence ou des restrictions computationnelles. Les résultats mettent en avant l'engagement continu d'Apple à améliorer les capacités conversationnelles et la compréhension contextuelle de Siri et d'autres produits.

Cependant, les chercheurs ont averti que l'analyse automatique des écrans a ses limites. Traiter des références visuelles plus complexes—comme distinguer entre plusieurs images—pourrait nécessiter l'intégration de technologies de vision par ordinateur et multimodales.

Apple a discrètement réalisé des avancées significatives dans le domaine de l'IA, bien qu'elle reste en retrait par rapport à ses concurrents dans ce marché en rapide évolution. Les laboratoires de recherche de l'entreprise continuent d'innover dans les modèles multimodaux, les outils alimentés par l'IA, et les technologies d'IA spécialisées à haute performance, reflétant son ambition dans le secteur de l'intelligence artificielle.

L'anticipation monte à l'approche de la Worldwide Developers Conference en juin, où Apple devrait dévoiler de nouveaux cadres de modèles linguistiques, un chatbot « Apple GPT », et d'autres fonctionnalités d'IA au sein de son écosystème, visant à s'adapter rapidement aux dynamiques changeantes du marché.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles