AI2 Améliore le Modèle OLMo Open Source avec un Ensemble de Données Varié et un Curriculum en Deux Étapes pour des Performances Optimisées

Home Actualités IA AI2 Améliore le Modèle OLMo Open Source avec un Ensemble de Données Varié et un Curriculum en Deux Étapes pour des Performances Optimisées

Mercredi, l'Allen Institute for AI (AI2) a dévoilé une mise à jour de son modèle à 7 milliards de paramètres, OLMo 1.7-7B. Cette version améliorée tire parti d'un ensemble de données Dolma plus vaste et varié, ainsi que d'un processus de formation avancé.

Lancé en février, OLMo est présenté comme un « modèle de langage de pointe véritablement open-source », comprenant des données de préformation complètes, le code de formation, les poids du modèle et des métriques d'évaluation.

La mise à jour récente permet à OLMo 1.7-7B de gérer une longueur de contexte prolongée, passant de 2 048 à 4 096 tokens, ce qui améliore ses performances grâce à des techniques de formation raffinées et à des améliorations architecturales. L'ensemble de données Dolma 1.7 comprend 2,3 trillions de tokens issus de sources variées comme Dolma CC, Refined Web, StarCoder, C4, Stack Exchange, OpenWebMath, Project Gutenberg et Wikipedia.

Jusqu'à présent axé sur Dolma 1.5, qui utilisait principalement des données web, le nouveau Dolma 1.7 améliore la capacité du modèle à traiter des tâches nécessitant des connaissances spécialisées, un raisonnement complexe et la programmation grâce à la diversification des sources de données. AI2 a mis en œuvre de meilleures méthodes de dé-duplication pour garantir la qualité du contenu, en éliminant les documents dont le score de duplication dépasse un seuil prédéfini, établi à partir des scores de duplication au niveau des paragraphes.

Dolma 1.7 présente également un système de filtrage de qualité affiné. Un classificateur FastText évalue les documents en fonction de leur qualité, distinguant les contenus bien structurés de ceux de moindre qualité. Les sources de haute qualité comprennent Wikipedia, les flux RSS de Small Web et Semantic Scholar, tandis que les documents de faible qualité englobent des contenus pour adultes et des sites de désinformation. Ce classificateur a été formé sur environ 25 Go de données.

De plus, OLMo 1.7 utilise un curriculum de formation en deux étapes. Dans un premier temps, les chercheurs forment le modèle depuis le début. Au second stade, le modèle est ensuite formé avec un sous-ensemble soigneusement sélectionné de Dolma 1.7, utilisant 50 milliards de tokens supplémentaires tout en réduisant progressivement le taux d'apprentissage à zéro. Ce sous-ensemble de haute qualité inclut toutes les données possibles de Wikipedia, OpenWebMath et Flan, à l'exclusion de certaines sources, et en équilibrant les proportions des ensembles de données restants.

AI2 affirme que ces améliorations permettent à OLMo 1.7-7B de dépasser à la fois Llama 2-7B dans le benchmark Massive Multitask Language Understanding (MMLU) et Llama-2-13B sur le jeu de données GSM8K.

Le modèle OLMo mis à jour est sous licence Apache 2.0, tandis que Dolma 1.7 est disponible sous ODC-BY. Les deux sont accessibles dès maintenant sur Hugging Face.

Présentation de Cisco Hypershield : Une approche révolutionnaire de la sécurité à l'ère de l'IA

Attention, Boston Dynamics ! Mentee Robotics lance son robot de nouvelle génération « AI-First »

Most people like

LogoAI.ai: AI Logo Maker Free Online

48.4K

Créez des logos époustouflants et de haute qualité à partir de texte, sans frais, grâce à une technologie IA de pointe.✨

Autre AI Avatar Generator

SDXL Turbo

444.8K

Découvrez une génération d'images AI ultra-rapide et de haute qualité, propulsée par une technologie ADD avancée.

Génération d'images par IA AI Photo & Image Generator

Cici AI

3.7M

Assistant Chat IA : Élevez vos Conversations et Plus. Débloquez le potentiel du dialogue intelligent et simplifiez vos interactions avec notre assistant chat IA, conçu pour améliorer la communication et offrir une assistance pertinente pour tous vos besoins.

assistant de chat IA AI Chatbot

Pl@ntNet

Explorez le monde fascinant des plantes et engagez-vous dans des recherches essentielles sur la biodiversité végétale. Vos contributions peuvent renforcer notre compréhension des espèces végétales et de leurs rôles cruciaux dans les écosystèmes. Rejoignez-nous pour identifier les plantes et soutenir les efforts de conservation de la biodiversité.

Identification des plantes AI Image Recognition

Find AI tools in YBX