Des chercheurs d'Apple réalisent des avancées majeures en intelligence artificielle multimodale grâce à des investissements accrus de l'entreprise.

Les chercheurs d'Apple ont dévoilé des méthodes innovantes pour former des modèles de langage de grande taille (LLMs) intégrant à la fois du texte et des images, marquant ainsi une avancée significative en intelligence artificielle (IA) et améliorant les futurs produits Apple. Cette recherche est détaillée dans un article intitulé "MM1 : Méthodes, Analyse et Perspectives sur la Pré-formation Multimodale des LLM", récemment publié sur arxiv.org. L'étude illustre comment la combinaison stratégique de divers types de données d'entraînement et d'architectures de modèles peut atteindre des performances de pointe sur une gamme de critères d'évaluation en IA.

Les chercheurs affirment : « Nous démontrons que la pré-formation multimodale à grande échelle, grâce à un mélange soigneux de données d'images et de légendes, de données image-texte entrelacées et de données textuelles uniquement, est essentielle pour atteindre des résultats d'état de l'art avec peu d'exemples sur plusieurs benchmarks. » En formant des modèles sur des ensembles de données variées incorporant des informations visuelles et linguistiques, les modèles MM1 excellent dans des tâches telles que la légende d'images, le questionnement visuel et l'inférence en langage naturel.

Principales Découvertes sur les Composants Visuels

Le choix de l'encodeur d'image et de la résolution d'entrée influence considérablement les performances du modèle. L'étude révèle : « L'encodeur d'image, ainsi que la résolution d'image et le nombre de tokens d'image, ont un effet substantiel, tandis que la conception du connecteur vision-langage est d'importance comparativement négligeable. » Cela souligne l'importance de l'optimisation continue des composants visuels dans ces modèles multimodaux pour libérer un potentiel supplémentaire.

Notamment, le plus grand modèle MM1, contenant 30 milliards de paramètres, a démontré de fortes capacités d'apprentissage en contexte, lui permettant de réaliser un raisonnement en plusieurs étapes à partir de plusieurs images d'entrée en utilisant des инstructions "chaînées" avec peu d'exemples. Cela indique que de grands modèles multimodaux peuvent aborder efficacement des problèmes complexes et ouverts nécessitant une compréhension et une génération de langage ancrées.

Stratégie d'Investissement d'Apple en IA

Apple augmente considérablement ses investissements en IA pour rester compétitif face à des rivaux comme Google, Microsoft et Amazon, qui ont fait des progrès dans l'intégration de l'IA générative dans leurs produits. Il est rapporté qu'Apple prévoit de consacrer 1 milliard de dollars par an au développement de l'IA.

Des sources internes suggèrent qu'Apple développe un cadre de modèle de langage appelé "Ajax" et un chatbot nommé "Apple GPT". Ces technologies visent à améliorer des produits comme Siri, Messages et Apple Music, permettant potentiellement de générer automatiquement des playlists personnalisées et d'assister à la rédaction de code.

Le PDG d'Apple, Tim Cook, a souligné l'importance de l'IA, affirmant : « Nous considérons l'IA et l'apprentissage automatique comme des technologies fondamentales, intégrées dans pratiquement tous les produits que nous livrons. Bien que je ne puisse pas partager de détails spécifiques, vous pouvez être assuré que nous investissons massivement dans ce domaine, et vous verrez des avancées produit en conséquence. »

Le Paysage Concurrentiel de l'IA

La stratégie d'Apple a historiquement favorisé une approche d'imitateur rapide plutôt que d'être un pionnier dans les tendances technologiques. Cependant, alors que l'IA est sur le point de révolutionner le paysage numérique, il est crucial pour Apple de maintenir son avantage concurrentiel. La recherche MM1 illustre la capacité d'Apple à réaliser des avancées de pointe, mais il reste à voir si la société pourra agir assez rapidement pour prospérer dans l'évolution du domaine de l'IA.

Tous les regards seront tournés vers la Conférence Mondiale des Développeurs d'Apple en juin, où de nouvelles fonctionnalités et outils pour développeurs alimentés par l'IA sont attendus. Dans le même temps, de petites avancées en IA, comme l'outil d'animation Keyframer, témoignent des progrès constants des efforts de recherche d'Apple.

Comme l'a souligné Tim Cook, « Nous sommes impatients de partager les détails de nos travaux en cours sur l'IA plus tard cette année. » Ce travail semble inclure des efforts significatifs pour exceller en intelligence multimodale, et nous pourrions bientôt être témoins du rôle influent d'Apple dans l'ère émergente de l'IA avancée, semblable à l'humain.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles