Apple dévoile le MM1.5 : un modèle d'IA multimodal de 30 milliards de dollars avec des fonctions de reconnaissance d'images et de compréhension du langage naturel.

Apple a récemment lancé son dernier modèle d'IA multimodale, le MM1.5, qui comprend 30 milliards de paramètres. Cette nouvelle version améliore considérablement le modèle précédent, le MM1.

Le MM1.5 suit des principes d'entraînement basés sur les données, analysant de près comment les données mixtes influencent les performances du modèle à travers divers cycles d'entraînement. La documentation de ce nouveau modèle est disponible sur la plateforme Hugging Face. Elle propose une gamme de configurations de paramètres allant de 1 milliard à 30 milliards, démontrant des capacités en reconnaissance d'images et en raisonnement en langage naturel.

Dans cette mise à jour, l'équipe de recherche d'Apple a optimisé la stratégie de mélange de données, entraînant d'importantes améliorations dans des domaines tels que la compréhension d'images multi-textes, le référencement visuel et la localisation, ainsi que le raisonnement multi-icônes. Des études montrent que pendant la phase de pré-entraînement du MM1.5, l'intégration de données OCR de haute qualité et de descriptions d'images synthétiques a considérablement renforcé la capacité du modèle à comprendre des images contenant beaucoup de texte. De plus, lors de la phase de réglage fin supervisé, l'équipe a analysé l'impact de différents types de données sur les performances du modèle, optimisant ainsi les configurations de données d'instruction visuelle, permettant même à des modèles plus petits (comme ceux de 1 milliard et 3 milliards de paramètres) d'obtenir des résultats remarquables.

Par ailleurs, Apple a introduit des modèles spécialisés tels que le MM1.5-Video pour la compréhension vidéo et le MM1.5-UI pour la compréhension des interfaces utilisateur (UI) sur les appareils mobiles. Le modèle MM1.5-UI devrait devenir la pierre angulaire de l'IA d'Apple pour l'écosystème iOS, gérant efficacement les tâches de référencement visuel et de localisation, tout en résumant les fonctions d'écran ou en interagissant via des conversations utilisateurs.

Malgré les performances exceptionnelles du modèle MM1.5 à travers de multiples benchmarks, l'équipe d'Apple s'engage à améliorer encore les capacités de l'IA en intégrant des données textuelles, d'images et d'interaction utilisateur pour développer des architectures plus complexes. Cet effort continu vise à renforcer l'efficacité de l'IA « Apple-brand », la rendant de plus en plus puissante dans la compréhension des interfaces mobiles.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles