Mercredi, l'Allen Institute for AI (AI2) a dévoilé une mise à jour de son modèle à 7 milliards de paramètres, OLMo 1.7-7B. Cette version améliorée tire parti d'un ensemble de données Dolma plus vaste et varié, ainsi que d'un processus de formation avancé.
Lancé en février, OLMo est présenté comme un « modèle de langage de pointe véritablement open-source », comprenant des données de préformation complètes, le code de formation, les poids du modèle et des métriques d'évaluation.
La mise à jour récente permet à OLMo 1.7-7B de gérer une longueur de contexte prolongée, passant de 2 048 à 4 096 tokens, ce qui améliore ses performances grâce à des techniques de formation raffinées et à des améliorations architecturales. L'ensemble de données Dolma 1.7 comprend 2,3 trillions de tokens issus de sources variées comme Dolma CC, Refined Web, StarCoder, C4, Stack Exchange, OpenWebMath, Project Gutenberg et Wikipedia.
Jusqu'à présent axé sur Dolma 1.5, qui utilisait principalement des données web, le nouveau Dolma 1.7 améliore la capacité du modèle à traiter des tâches nécessitant des connaissances spécialisées, un raisonnement complexe et la programmation grâce à la diversification des sources de données. AI2 a mis en œuvre de meilleures méthodes de dé-duplication pour garantir la qualité du contenu, en éliminant les documents dont le score de duplication dépasse un seuil prédéfini, établi à partir des scores de duplication au niveau des paragraphes.
Dolma 1.7 présente également un système de filtrage de qualité affiné. Un classificateur FastText évalue les documents en fonction de leur qualité, distinguant les contenus bien structurés de ceux de moindre qualité. Les sources de haute qualité comprennent Wikipedia, les flux RSS de Small Web et Semantic Scholar, tandis que les documents de faible qualité englobent des contenus pour adultes et des sites de désinformation. Ce classificateur a été formé sur environ 25 Go de données.
De plus, OLMo 1.7 utilise un curriculum de formation en deux étapes. Dans un premier temps, les chercheurs forment le modèle depuis le début. Au second stade, le modèle est ensuite formé avec un sous-ensemble soigneusement sélectionné de Dolma 1.7, utilisant 50 milliards de tokens supplémentaires tout en réduisant progressivement le taux d'apprentissage à zéro. Ce sous-ensemble de haute qualité inclut toutes les données possibles de Wikipedia, OpenWebMath et Flan, à l'exclusion de certaines sources, et en équilibrant les proportions des ensembles de données restants.
AI2 affirme que ces améliorations permettent à OLMo 1.7-7B de dépasser à la fois Llama 2-7B dans le benchmark Massive Multitask Language Understanding (MMLU) et Llama-2-13B sur le jeu de données GSM8K.
Le modèle OLMo mis à jour est sous licence Apache 2.0, tandis que Dolma 1.7 est disponible sous ODC-BY. Les deux sont accessibles dès maintenant sur Hugging Face.