AI2 Améliore le Modèle OLMo Open Source avec un Ensemble de Données Varié et un Curriculum en Deux Étapes pour des Performances Optimisées

Home Actualités IA AI2 Améliore le Modèle OLMo Open Source avec un Ensemble de Données Varié et un Curriculum en Deux Étapes pour des Performances Optimisées

Mercredi, l'Allen Institute for AI (AI2) a dévoilé une mise à jour de son modèle à 7 milliards de paramètres, OLMo 1.7-7B. Cette version améliorée tire parti d'un ensemble de données Dolma plus vaste et varié, ainsi que d'un processus de formation avancé.

Lancé en février, OLMo est présenté comme un « modèle de langage de pointe véritablement open-source », comprenant des données de préformation complètes, le code de formation, les poids du modèle et des métriques d'évaluation.

La mise à jour récente permet à OLMo 1.7-7B de gérer une longueur de contexte prolongée, passant de 2 048 à 4 096 tokens, ce qui améliore ses performances grâce à des techniques de formation raffinées et à des améliorations architecturales. L'ensemble de données Dolma 1.7 comprend 2,3 trillions de tokens issus de sources variées comme Dolma CC, Refined Web, StarCoder, C4, Stack Exchange, OpenWebMath, Project Gutenberg et Wikipedia.

Jusqu'à présent axé sur Dolma 1.5, qui utilisait principalement des données web, le nouveau Dolma 1.7 améliore la capacité du modèle à traiter des tâches nécessitant des connaissances spécialisées, un raisonnement complexe et la programmation grâce à la diversification des sources de données. AI2 a mis en œuvre de meilleures méthodes de dé-duplication pour garantir la qualité du contenu, en éliminant les documents dont le score de duplication dépasse un seuil prédéfini, établi à partir des scores de duplication au niveau des paragraphes.

Dolma 1.7 présente également un système de filtrage de qualité affiné. Un classificateur FastText évalue les documents en fonction de leur qualité, distinguant les contenus bien structurés de ceux de moindre qualité. Les sources de haute qualité comprennent Wikipedia, les flux RSS de Small Web et Semantic Scholar, tandis que les documents de faible qualité englobent des contenus pour adultes et des sites de désinformation. Ce classificateur a été formé sur environ 25 Go de données.

De plus, OLMo 1.7 utilise un curriculum de formation en deux étapes. Dans un premier temps, les chercheurs forment le modèle depuis le début. Au second stade, le modèle est ensuite formé avec un sous-ensemble soigneusement sélectionné de Dolma 1.7, utilisant 50 milliards de tokens supplémentaires tout en réduisant progressivement le taux d'apprentissage à zéro. Ce sous-ensemble de haute qualité inclut toutes les données possibles de Wikipedia, OpenWebMath et Flan, à l'exclusion de certaines sources, et en équilibrant les proportions des ensembles de données restants.

AI2 affirme que ces améliorations permettent à OLMo 1.7-7B de dépasser à la fois Llama 2-7B dans le benchmark Massive Multitask Language Understanding (MMLU) et Llama-2-13B sur le jeu de données GSM8K.

Le modèle OLMo mis à jour est sous licence Apache 2.0, tandis que Dolma 1.7 est disponible sous ODC-BY. Les deux sont accessibles dès maintenant sur Hugging Face.

Présentation de Cisco Hypershield : Une approche révolutionnaire de la sécurité à l'ère de l'IA

Attention, Boston Dynamics ! Mentee Robotics lance son robot de nouvelle génération « AI-First »

Most people like

Outfit Changer AI

188K

Découvrez comment l'IA transforme l'industrie de la mode en améliorant les processus de design, en personnalisant les expériences client et en favorisant la durabilité. Dans cet article, nous examinons les méthodes révolutionnaires par lesquelles l'intelligence artificielle redéfinit la mode, la rendant plus innovante et accessible que jamais. Rejoignez-nous dans un voyage à travers l'intersection fascinante de la technologie et du style.

Mode IA AI Clothing Generator

EssayGrader

51.7K

Un outil en ligne innovant conçu pour les enseignants afin d'évaluer efficacement les essais et les travaux, offrant un retour d'information alimenté par l'IA pour améliorer l'apprentissage des étudiants.

Autre AI Checker Essay

TranslateImage

64.1K

Transformez des images en plusieurs langues sans modifier leur format de texte original. Ce processus garantit que l'intégrité visuelle du contenu est préservée tout en le rendant accessible à un public diversifié dans le monde entier. Découvrez comment traduire des images de manière fluide et améliorer la communication au-delà des barrières linguistiques.

traduction d'images Translate

interviewsby.ai

53.2K

Interviewsby.ai propose des simulations d'entretiens personnalisées avec un retour instantané grâce à ChatGPT.

pratique d'entretien AI Coaching

Find AI tools in YBX