Le Modèle ReALM d'Apple Améliore l'Intelligence de Siri
Le 2 avril, il a été rapporté qu'Apple faisait progresser son exploration en intelligence artificielle avec un nouveau modèle appelé ReALM, conçu pour améliorer considérablement les capacités de Siri. Des études récentes montrent que ReALM surpasse le modèle linguistique réputé d'OpenAI, GPT-4.0, bien que la capacité de Siri à décrire des images reste encore inconstante à ce stade.
Caractéristiques Clés de ReALM
ReALM se distingue par sa capacité à comprendre simultanément le contenu affiché sur l'écran d'un utilisateur et les actions en cours. Le modèle classe l'information en trois catégories :
1. Entités d'Écran : Contenu actuellement visible sur l'écran de l'utilisateur.
2. Entités de Dialogue : Informations liées aux conversations en cours, comme les coordonnées de "Maman" dans la commande "Appeler Maman".
3. Entités de Contexte : Entités non directement liées au contenu ou aux actions actuelles de l'utilisateur, comme jouer de la musique ou une alarme à venir.
Si ReALM est pleinement opérationnel, il rendrait Siri beaucoup plus intelligente et utile. L'équipe de recherche a réalisé une comparaison de performance entre ReALM et les modèles GPT-3.5 et GPT-4.0 d'OpenAI, révélant des insights significatifs :
"Nous avons testé les deux modèles d'OpenAI, GPT-3.5 et GPT-4.0, en leur fournissant des informations contextuelles pour prédire diverses entités. GPT-3.5 ne traite que les entrées textuelles, tandis que GPT-4 peut comprendre des données visuelles, améliorant ainsi son aptitude à identifier les entités d'écran."
Résultats Impressionnants de ReALM
ReALM a montré des progrès remarquables dans la reconnaissance de différents types d'entités. Le plus petit modèle a réalisé une amélioration de plus de 5 % de la précision de reconnaissance des entités d'écran par rapport au système original. En comparaison avec GPT-3.5 et GPT-4.0, notre plus petit modèle a obtenu des performances similaires à celles de GPT-4.0, tandis que les modèles plus grands l'ont clairement surpassé.
Une des conclusions de l'étude est que, bien qu'ayant significativement moins de paramètres que GPT-4, les performances de ReALM sont compétitives, surtout lors du traitement des commandes utilisateur dans des contextes spécifiques, en faisant un système efficace de reconnaissance d'entités sur appareil.
Pour Apple, le défi réside dans le déploiement efficace de cette technologie sur les appareils, sans compromettre les performances. À l'approche de la conférence des développeurs WWDC 2024 le 10 juin, l'industrie attend avec impatience la présentation par Apple de ses nouvelles avancées en IA dans iOS 18 et d'autres systèmes à venir.