Comment Gradient a développé un LLM open source avec une fenêtre de contexte d'un million de tokens

Dans un partenariat récent, la startup IA Gradient et la plateforme de cloud computing Crusoe ont élargi la fenêtre de contexte des modèles Llama-3 à un impressionnant million de tokens. La fenêtre de contexte fait référence au nombre de tokens d'entrée et de sortie qu'un grand modèle de langage (LLM) peut gérer, ce qui est crucial pour de nombreuses applications.

Les entreprises technologiques et les principaux laboratoires d'IA sont engagés dans une compétition féroce pour améliorer les fenêtres de contexte de leurs LLMs. En quelques mois, le support de tokens a augmenté de quelques milliers à plus d'un million. Cependant, des modèles avec de larges fenêtres de contexte, tels qu'Anthropic Claude (200k tokens), OpenAI GPT-4 (128k tokens) et Google Gemini (1 million de tokens), sont principalement disponibles dans des environnements privés.

Le Besoin de LLMs à Long Contexte Open Source

Gradient collabore avec des clients d'entreprise souhaitant intégrer des LLMs dans leurs opérations. Avant même la sortie de Llama-3, la société a rencontré des limitations de contexte significatives dans ses projets clients. Par exemple, les copilotes de codage, outils essentiels pour la programmation, génèrent généralement des extraits de code courts. Désormais, les entreprises aspirent à améliorer ces capacités pour développer des modules de code complets.

« Pour y parvenir, le modèle de langage doit faire référence à l'ensemble d'une base de code ou à plusieurs dépôts GitHub, » a expliqué Leo Pekelis, scientifique en chef chez Gradient AI. Fournir la base de code complète morceau par morceau serait lent et sujet à des inexactitudes, car le modèle n'accéderait pas à l'ensemble en une seule fois.

« Avoir la possibilité de fournir des bases de code entières dans un contexte de modèle de langage résout de nombreux problèmes, permettant des solutions plus précises et efficaces, » a ajouté Pekelis.

En raison de restrictions sur l'envoi de données à des tiers, de nombreuses entreprises ne peuvent pas utiliser des modèles privés comme Gemini ou Claude. Cela a motivé l'équipe de Gradient à développer son propre modèle open source avec une fenêtre de contexte d'un million de tokens.

Contributions de Recherche Ouverte

La commercialisation des LLMs a réduit la volonté des laboratoires d'IA à partager découvertes et recherches. Bien que les entreprises continuent d'étendre les fenêtres de contexte, elles sont moins enclines à divulguer code, données ou stratégies utilisées pour optimiser leurs modèles. Néanmoins, la communauté de recherche ouverte reste engagée dans le partage de connaissances et l'avancement des modèles. Gradient a largement puisé dans les contributions de recherche d'universités et d’instituts du monde entier.

En utilisant les versions à 8 milliards et 70 milliards de paramètres de Llama 3 de Meta, qui a une fenêtre de contexte par défaut de 8 000 tokens, ils ont mis en œuvre des techniques de Berkeley AI Research qui ont facilité de plus longues longueurs de contexte sans surcharge de mémoire et de ressources informatiques. Le code initial provenait d'un projet open source à Singapour, tandis que des formules mathématiques clés ont été récupérées d'un laboratoire à Shanghai. Des évaluations de performance ont été réalisées par rapport à des références de Nvidia pour comparer leurs modèles avec d'autres LLMs à long contexte comme Gemini.

« Beaucoup de ces progrès n’auraient pas été possibles sans la communauté de recherche ouverte, » a noté Pekelis. « La recherche ouverte influencera considérablement notre travail dans tous les domaines. »

Surmonter les Défis Informatiques

L'accès aux ressources informatiques est un défi majeur dans la recherche sur les LLMs. La plupart des laboratoires d'IA dépendent de grands clusters GPU pour l'entraînement et les tests. Gradient s'est associé à Crusoe pour étudier les LLMs à long contexte, utilisant le cloud IA spécialisé de Crusoe pour explorer le développement de modèles rentables.

« Le moment était remarquable alors que nous lancions un cluster [Nvidia] L40S, » a déclaré Ethan Petersen, Senior Developer Advocate chez Crusoe. « Nous voulions montrer que ces puces facilitent un entraînement étendu, pas seulement l'inférence. »

Les grandes entreprises technologiques se disputent des GPU haut de gamme comme les A100, H100 et le prochain B100, chacun coûtant des dizaines de milliers de dollars, les clusters de serveurs atteignant des millions. Crusoe propose ces GPU et personnalise des solutions pour ses clients. En collaborant étroitement avec Gradient, ils ont adapté le cluster L40S, réduisant ainsi considérablement les coûts d'entraînement.

« Notre approche avec des partenaires comme Gradient se concentre sur la fourniture des solutions informatiques les plus efficaces en fonction de leurs besoins, et dans ce cas, le L40S était idéal, » a déclaré Patrick McGregor, Chief Product Officer chez Crusoe. « Nous apportons une immense valeur en personnalisant nos offres informatiques. »

Pekelis a remarqué que les innovations réalisées grâce à l'optimisation du réseau sur le cluster L40S leur ont permis d'entraîner rapidement les modèles, les lançant peu après la sortie de Llama-3. D'autres fournisseurs de cloud manquent du même niveau de flexibilité collaborative, compliquant les configurations personnalisées.

Techniques d'Évaluation des Modèles

Un banc d'essai crucial utilisé pour évaluer les longues fenêtres de contexte est le test « aiguille dans une meule de foin », où une information spécifique est testée dans une séquence textuelle longue.

« Nos modèles atteignent une performance presque parfaite sur ce test, efficace jusqu'à une longueur de contexte de 2 millions, comparable uniquement à ce que j’ai vu avec Gemini 1.5 Pro, » a déclaré Pekelis.

Cependant, les tests « aiguille dans une meule de foin » peuvent ne pas décrire complètement la performance globale d'un modèle en matière de contexte. L'équipe a également utilisé des évaluations plus complexes, comme des « aiguilles dans la meule de foin » multiples ou des aiguilles adversariales, où des informations contradictoires sont introduites.

Ils ont évalué leur modèle en utilisant le banc d'essai RULER de Nvidia, qui comprend 13 tâches adaptées à l'évaluation des modèles de langage à long contexte avec des longueurs et complexités de séquence variables. L'équipe améliore également les capacités des modèles pour l'apprentissage contextuel à plusieurs exemples, leur permettant de s'adapter dynamiquement à de nouvelles tâches en incluant des centaines ou des milliers d'exemples dans l'invite.

Applications Entreprises des LLMs à Long Contexte

Pekelis estime que les modèles open source à long contexte combleront le fossé pour les entreprises et les développeurs souhaitant créer des applications basées sur des LLMs.

« Actuellement, il y a une disparité notoire entre les applications IA individuelles et les solutions d'entreprise, qui sont à la traîne, » a-t-il noté. « Permettre aux modèles de langage de traiter plus d'informations dans leurs fenêtres de contexte ouvre de nouvelles possibilités. »

Des contextes plus longs peuvent dynamiser les systèmes agentiques — où plusieurs modèles de langage fonctionnent ensemble — en traitant de plus grandes quantités d'informations avec moins de demandes. De plus, les LLMs à long contexte peuvent simplifier des tâches complexes de traitement de données, telles que l'imitation de style.

« Au lieu de rassembler et de prétraiter des données provenant de diverses sources pour former un modèle visant à imiter mon style d’écriture, vous pouvez simplement fournir tous mes emails passés, et le modèle apprend à écrire comme moi, » a expliqué Pekelis.

En outre, les LLMs avec de vastes fenêtres de contexte pourraient diminuer la dépendance à la génération augmentée par récupération (RAG), qui nécessite de récupérer des documents pertinents pour chaque demande. Hypothétiquement, un LLM avec un contexte infini pourrait intégrer tous les documents dans l'invite, sélectionnant les sections les plus pertinentes par requête — bien qu'il nécessiterait toujours des nouvelles requêtes pour chaque nouvelle session de chat en raison des limitations de contexte.

Des fenêtres de contexte améliorées abaissent également les barrières à la création de prototypes et de preuves de concept, aidant les équipes produit à saisir le potentiel des modèles de langage.

« Souvent, éduquer les clients sur ce qui est possible est une étape initiale cruciale, » a conclu Pekelis. « Développer des prototypes ou des exemples initiaux illustre le potentiel transformateur pour les entreprises. »

Most people like

Find AI tools in YBX