Apple Met en Avant Ses Capacités en IA : Nouveaux Modèles Dépassent les Performances de Mistral et Hugging Face

Alors que l'excitation grandit autour des capacités du nouveau GPT-4o-mini, Apple étoffe sa gamme de modèles d'IA compacts avec plusieurs modèles ouverts DataComp for Language Models (DCLM) publiés sur Hugging Face. Ce package comprend deux modèles majeurs : l'un avec 7 milliards de paramètres et l'autre avec 1,4 milliard. Tous deux brillent lors des tests de référence, le modèle le plus volumineux surpassant Mistral-7B et approchant rapidement la performance d'autres modèles ouverts de premier plan comme Llama 3 et Gemma.

Vaishaal Shankar, membre de l'équipe Apple ML, qualifie ces modèles d'options open source « les plus performantes » disponibles. Ce projet adopte pleinement les principes de l'open source en diffusant les poids des modèles, le code d'entraînement et le jeu de données de pré-entraînement.

Aperçu des Modèles DCLM d’Apple

Le projet DataComp est une initiative collaborative impliquant des chercheurs d'Apple, de l'Université de Washington, de l'Université de Tel Aviv et de l'Institut de recherche Toyota. Son objectif est de créer des jeux de données de haute qualité pour l'entraînement de modèles d'IA, en particulier dans le domaine multimodal. L'équipe utilise un cadre standardisé avec des architectures de modèles fixes, du code d'entraînement, des hyperparamètres et des évaluations pour tester diverses stratégies de sélection des données afin d’optimiser les performances des modèles.

Les premières expériences ont révélé que le filtrage basé sur les modèles — où des modèles d'apprentissage automatique sélectionnent des données de haute qualité à partir de jeux de données plus vastes — joue un rôle crucial dans l'assemblage de jeux de formation supérieurs. Grâce à cette technique, l'équipe a développé le jeu de données DCLM-Baseline, qui a été essentiel pour entraîner les modèles de transformateur avec 7 et 1,4 milliard de paramètres depuis zéro.

Le modèle 7B, entraîné sur 2,5 billions de tokens avec des recettes de pré-entraînement OpenLM, présente une fenêtre de contexte de 2K et atteint une précision de 63,7 % dans l'évaluation MMLU. Cela représente une amélioration de 6,6 points par rapport à MAP-Neo, le précédent leader des modèles de langage avec données ouvertes, tout en utilisant 40 % de puissance de calcul en moins lors de l'entraînement.

De plus, sa performance MMLU est proche de celle des modèles de pointe avec poids ouverts mais données fermées, tels que Mistral-7B-v0.3 (62,7 %), Llama3 8B (66,2 %), Gemma de Google (64,3 %) et Phi-3 de Microsoft (69,9 %).

Lorsque les chercheurs ont élargi le contexte du modèle à 8K et effectué 100 milliards d'itérations d'entraînement supplémentaires en utilisant la technique de Décomposition de Dataset, ils ont observé d'autres améliorations de performance sur les benchmarks Core et Extended, bien que les résultats MMLU soient restés constants.

« Nos résultats soulignent l'importance de la conception des jeux de données dans l'entraînement des modèles de langage et servent de base à la recherche continue en matière de sélection des données », ont déclaré les chercheurs dans un article sur DataComp-LM.

Performance Impressionnante du Modèle Plus Petit

Similaire au DCLM-7B, le modèle plus petit de 1,4B — développé en collaboration avec l'Institut de recherche Toyota en utilisant 2,6 billions de tokens — montre également des performances remarquables dans les tests MMLU, Core et Extended. Dans l'évaluation MMLU en 5 coups, il a atteint 41,9 %, surpassant d'autres modèles de sa catégorie, notamment SmolLM de Hugging Face, qui affichait un score de 39,97 %. Qwen-1.5B et Phi-1.5B ont suivi, avec des scores de 37,87 % et 35,90 %, respectivement.

Actuellement, le modèle 7B est disponible sous la licence Sample Code d’Apple, tandis que le modèle 1.4B a été publié sous Apache 2.0, permettant l'utilisation commerciale, la distribution et la modification. De plus, une version ajustée pour les instructions du modèle 7B est disponible dans la bibliothèque Hugging Face.

Il est essentiel de souligner que cette publication représente une recherche préliminaire mettant l'accent sur l'efficacité de la sélection des données. Ces modèles ne sont pas conçus pour les dispositifs Apple et peuvent présenter des biais issus de leurs ensembles d'entraînement ou produire des réponses potentiellement nuisibles.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles