L'Allen Institute for AI (AI2), en collaboration avec Contextual AI, a lancé un modèle de langage à grande échelle open-source innovant, baptisé OLMoE. Ce modèle vise à allier performance élevée et coût réduit.
OLMoE présente une architecture de mélange d'experts clairsemés (MoE), avec 7 milliards de paramètres tout en n'utilisant qu'un milliard de paramètres pour chaque token d'entrée. Il existe en deux versions : OLMoE-1B-7B pour un usage général et OLMoE-1B-7B-Instruct pour l'apprentissage par instructions.
Contrairement à de nombreux autres modèles MoE, OLMoE est entièrement open-source. AI2 met en avant les difficultés d'accès aux autres modèles MoE, souvent peu transparents quant à leurs données d'entraînement, leur code ou leurs méthodes de construction. « La plupart des modèles MoE sont fermés et offrent peu d'informations sur leurs données d'entraînement ou leurs méthodologies, freinant le développement de MoE open-source compétitifs capable de rivaliser avec des modèles fermés », souligne AI2 dans son document. Ce manque d'accessibilité représente un obstacle majeur pour les chercheurs et les universitaires.
Nathan Lambert, chercheur chez AI2, a déclaré sur X (anciennement Twitter) qu'OLMoE pourrait soutenir le développement de politiques, servant d'outil fondamental à mesure que des clusters H100 deviennent disponibles. Il a insisté sur l'engagement d'AI2 à publier des modèles open-source compétitifs, affirmant : « Nous avons amélioré notre infrastructure et nos données sans compromettre nos objectifs principaux. Ce modèle est véritablement à la pointe de la technologie, et pas seulement le meilleur dans quelques évaluations. »
Développement d'OLMoE
Pour développer OLMoE, AI2 a adopté une approche de routage fin utilisant 64 petits experts, n'activant que huit à la fois. Cette configuration a permis d’atteindre des performances comparables à d'autres modèles tout en réduisant considérablement les coûts d'inférence et les besoins en mémoire.
OLMoE s’appuie sur le modèle open-source précédent d’AI2, OLMO 1.7-7B, qui supportait une fenêtre de contexte de 4 096 tokens, utilisant un ensemble de données d'entraînement nommé Dolma 1.7. Pour son entraînement, OLMoE a intégré un ensemble de données varié incluant des sous-ensembles de Common Crawl, Dolma CC, Refined Web, StarCoder, C4, Stack Exchange, OpenWebMath, Project Gutenberg et Wikipedia.
AI2 affirme qu'OLMoE « surpasse tous les modèles existants avec des paramètres actifs similaires, et dépasse même des modèles plus grands comme Llama2-13B-Chat et DeepSeekMoE-16B. » Les résultats des benchmarks indiquent qu'OLMoE-1B-7B se mesure souvent de près à des modèles avec 7 milliards de paramètres ou plus, tels que Mistral-7B, Llama 3.1-B et Gemma 2. Lors de tests comparant des modèles d'un milliard de paramètres, OLMoE-1B-7B a significativement surpassé d'autres modèles open-source, y compris Pythia, TinyLlama, et même le propre modèle d'AI2, OLMO.
La nécessité des MoE open-source
La mission d'AI2 comprend l'amélioration de l'accessibilité aux modèles d'IA entièrement open-source, en particulier dans l'architecture MoE, de plus en plus populaire. De nombreux développeurs se tournent vers les systèmes MoE, comme l’indiquent Mixtral 8x22B de Mistral et Grok de X.ai, alimentant des spéculations sur l'utilisation potentielle des MoE dans GPT-4. Toutefois, AI2 et Contextual AI soulignent que de nombreux modèles d'IA existants manquent de transparence complète quant à leurs données d'entraînement et à leurs bases de code.
AI2 insiste sur la nécessité d'ouverture dans les modèles MoE, qui posent des défis de conception uniques, tels que la détermination du ratio entre les paramètres totaux et actifs, le choix entre de nombreux petits experts ou moins d'experts plus grands, le partage d'experts et le choix d'algorithmes de routage appropriés.
De plus, l'Open Source Initiative s'efforce de définir ce qui constitue l'ouverture pour les modèles d'IA, soulignant l'importance de la transparence pour faire avancer le domaine.