Le nouveau modèle économique d'AI2 : des solutions ouvertes et puissantes pour tous.

Home Actualités IA Le nouveau modèle économique d'AI2 : des solutions ouvertes et puissantes pour tous.

Updated on septembre 9 2024

L'Allen Institute for AI (AI2), en collaboration avec Contextual AI, a lancé un modèle de langage à grande échelle open-source innovant, baptisé OLMoE. Ce modèle vise à allier performance élevée et coût réduit.

OLMoE présente une architecture de mélange d'experts clairsemés (MoE), avec 7 milliards de paramètres tout en n'utilisant qu'un milliard de paramètres pour chaque token d'entrée. Il existe en deux versions : OLMoE-1B-7B pour un usage général et OLMoE-1B-7B-Instruct pour l'apprentissage par instructions.

Contrairement à de nombreux autres modèles MoE, OLMoE est entièrement open-source. AI2 met en avant les difficultés d'accès aux autres modèles MoE, souvent peu transparents quant à leurs données d'entraînement, leur code ou leurs méthodes de construction. « La plupart des modèles MoE sont fermés et offrent peu d'informations sur leurs données d'entraînement ou leurs méthodologies, freinant le développement de MoE open-source compétitifs capable de rivaliser avec des modèles fermés », souligne AI2 dans son document. Ce manque d'accessibilité représente un obstacle majeur pour les chercheurs et les universitaires.

Nathan Lambert, chercheur chez AI2, a déclaré sur X (anciennement Twitter) qu'OLMoE pourrait soutenir le développement de politiques, servant d'outil fondamental à mesure que des clusters H100 deviennent disponibles. Il a insisté sur l'engagement d'AI2 à publier des modèles open-source compétitifs, affirmant : « Nous avons amélioré notre infrastructure et nos données sans compromettre nos objectifs principaux. Ce modèle est véritablement à la pointe de la technologie, et pas seulement le meilleur dans quelques évaluations. »

Développement d'OLMoE

Pour développer OLMoE, AI2 a adopté une approche de routage fin utilisant 64 petits experts, n'activant que huit à la fois. Cette configuration a permis d’atteindre des performances comparables à d'autres modèles tout en réduisant considérablement les coûts d'inférence et les besoins en mémoire.

OLMoE s’appuie sur le modèle open-source précédent d’AI2, OLMO 1.7-7B, qui supportait une fenêtre de contexte de 4 096 tokens, utilisant un ensemble de données d'entraînement nommé Dolma 1.7. Pour son entraînement, OLMoE a intégré un ensemble de données varié incluant des sous-ensembles de Common Crawl, Dolma CC, Refined Web, StarCoder, C4, Stack Exchange, OpenWebMath, Project Gutenberg et Wikipedia.

AI2 affirme qu'OLMoE « surpasse tous les modèles existants avec des paramètres actifs similaires, et dépasse même des modèles plus grands comme Llama2-13B-Chat et DeepSeekMoE-16B. » Les résultats des benchmarks indiquent qu'OLMoE-1B-7B se mesure souvent de près à des modèles avec 7 milliards de paramètres ou plus, tels que Mistral-7B, Llama 3.1-B et Gemma 2. Lors de tests comparant des modèles d'un milliard de paramètres, OLMoE-1B-7B a significativement surpassé d'autres modèles open-source, y compris Pythia, TinyLlama, et même le propre modèle d'AI2, OLMO.

La nécessité des MoE open-source

La mission d'AI2 comprend l'amélioration de l'accessibilité aux modèles d'IA entièrement open-source, en particulier dans l'architecture MoE, de plus en plus populaire. De nombreux développeurs se tournent vers les systèmes MoE, comme l’indiquent Mixtral 8x22B de Mistral et Grok de X.ai, alimentant des spéculations sur l'utilisation potentielle des MoE dans GPT-4. Toutefois, AI2 et Contextual AI soulignent que de nombreux modèles d'IA existants manquent de transparence complète quant à leurs données d'entraînement et à leurs bases de code.

AI2 insiste sur la nécessité d'ouverture dans les modèles MoE, qui posent des défis de conception uniques, tels que la détermination du ratio entre les paramètres totaux et actifs, le choix entre de nombreux petits experts ou moins d'experts plus grands, le partage d'experts et le choix d'algorithmes de routage appropriés.

De plus, l'Open Source Initiative s'efforce de définir ce qui constitue l'ouverture pour les modèles d'IA, soulignant l'importance de la transparence pour faire avancer le domaine.

ServiceNow lance une bibliothèque d'agents AI d'entreprise personnalisables adaptée à vos besoins de travail.

LightEval : Un outil open-source de Hugging Face pour renforcer la responsabilité de l'IA

Most people like

Undress AI Tool

292.3K

Révélez des images époustouflantes sans frais !

DeepNude Photo & Image Editor

Gening AI

220.6K

Transformez vos idées en visuels captivants sans effort. Grâce à notre technologie de pointe, vous pouvez générer de magnifiques images à partir de simples instructions textuelles. Que vous soyez designer en quête d'inspiration ou que vous souhaitiez donner vie à vos concepts, notre plateforme facilite la conversion de mots en graphiques saisissants. Plongez dès aujourd'hui dans un monde de possibilités créatives !

Générateur d'images IA AI Photo & Image Generator

WellSaid Labs

193K

WellSaid Labs est une plateforme de voix IA majeure, reconnue pour fournir des voix off en temps réel d'une qualité exceptionnelle, avec une clarté et une naturalité remarquables.

Plateforme vocale IA AI Speech Synthesis

Jam

648.3K

Présentation de Jam : un outil de rapport de bogues efficace conçu pour simplifier le processus de signalement des bogues pour les utilisateurs. Grâce à son interface conviviale, Jam facilite plus que jamais l'identification, le suivi et la résolution des problèmes par les équipes.

rapport de bogue AI Testing & QA

Find AI tools in YBX