Les chercheurs d'Apple dévoilent un système d'IA révolutionnaire : des innovations qui surpassent les performances de GPT-4.

Des chercheurs d'Apple ont développé un système d'IA nommé ReALM (Reference Resolution as Language Modeling), visant à améliorer considérablement la capacité des assistants vocaux à comprendre et à répondre aux commandes.

Dans leur dernier article de recherche, Apple explique comment ReALM utilise des modèles de langage avancés pour résoudre les défis de la résolution de référence. Ce système excelle dans l'interprétation des références vagues aux entités à l'écran et dans la compréhension du dialogue en contexte, rendant les interactions avec les appareils plus intuitives et naturelles.

La résolution de référence est un aspect clé de la compréhension du langage naturel, permettant aux utilisateurs d'utiliser des pronoms et des références indirectes dans leurs conversations sans créer de confusion. Cependant, cela a représenté un défi majeur pour les assistants numériques, en raison de la complexité du traitement des divers indices verbaux et informations visuelles. ReALM s'efforce de simplifier ce processus en le transformant en une tâche de modélisation du langage claire, favorisant une meilleure compréhension des références aux éléments visuels à l'écran pendant les conversations.

ReALM reconstruit la mise en page visuelle de l'écran par le biais d'une représentation textuelle, analysant les entités affichées et leurs emplacements pour générer un format textuel qui reflète le contenu et la structure de l'écran. Les chercheurs d'Apple ont découvert que des modèles de langage spécifiquement ajustés réussissaient nettement mieux dans les tâches de résolution de référence que les méthodes traditionnelles, y compris le GPT-4 d'OpenAI.

Cette avancée permet aux utilisateurs d'interagir plus efficacement avec les assistants numériques en fonction du contenu affiché à l'écran, éliminant ainsi le besoin de descriptions précises et détaillées. Elle ouvre de nouvelles possibilités pour les applications des assistants vocaux, comme aider les conducteurs avec des informations de navigation en conduisant ou offrir une interaction indirecte plus simple et précise pour les utilisateurs en situation de handicap.

Récemment, Apple a publié plusieurs études liées à l'intelligence artificielle, notamment une méthode d'entraînement de modèles de langage destinée à intégrer sans couture les informations textuelles et visuelles, publiée le mois dernier. L'anticipation monte en vue de la conférence WWDC prévue en juin, où Apple devrait dévoiler une gamme de nouvelles fonctionnalités en IA.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles