Nous Research a fait sensation ce mois-ci avec le lancement de sa variante open-source Llama 3.1, Hermes 3. Désormais, la petite équipe de recherche dédiée au développement de modèles d'IA « personnalisés et sans restriction » a dévoilé une innovation révolutionnaire : DisTrO (Distributed Training Over-the-Internet). Cet optimiseur réduit considérablement le transfert de données entre les GPU (unités de traitement graphique) lors de l'entraînement de modèles d'IA.
DisTrO permet aux individus et aux institutions du monde entier de former des modèles d'IA avancés de manière collaborative via des connexions Internet grand public, éliminant ainsi la domination des grandes entreprises sur le processus de formation. Dans un article technique récent, Nous Research a révélé que DisTrO offre une augmentation d'efficacité impressionnante de 857 fois par rapport à l'algorithme de formation All-Reduce populaire. De plus, il réduit le transfert de données de 74,4 gigaoctets à seulement 86,8 mégaoctets par étape d'entraînement, entraînant une légère diminution des performances. Les résultats sont résumés dans le tableau ci-dessous extrait de leur article de recherche.
En fin de compte, DisTrO pourrait démocratiser l'accès à l'entraînement de modèles d'IA puissants, permettant à un plus grand nombre de personnes d'explorer et d'expérimenter sans barrières corporatives.
Le défi de l'entraînement en IA : des exigences matérielles considérables
Comme évoqué précédemment, les GPU de Nvidia sont très demandés en cette période de boom de l'IA générative. Ces cartes graphiques coûteuses offrent la puissance de traitement parallèle nécessaire pour un entraînement rapide et efficace de l'IA. Le processus d'entraînement repose largement sur des clusters de GPU qui communiquent pour partager les informations des ensembles de données d'entraînement.
Cette « communication inter-GPU » nécessite des clusters de GPU méticuleusement conçus pour minimiser la latence et maximiser le débit. Par conséquent, des entreprises comme Tesla investissent dans des « superclusters » physiques composés de milliers de GPU dans de grands centres de données.
En raison de ces exigences strictes, l'entraînement de l'IA générative, surtout pour les modèles les plus sophistiqués, est souvent un processus nécessitant des capitaux, accessible principalement aux entreprises bien financées comme Tesla, Meta, OpenAI, Microsoft, Google et Anthropic. Chacune de ces organisations a sa propre méthodologie d'entraînement, mais toutes utilisent généralement un matériel similaire et contrôlent étroitement leurs processus de formation en IA, rendant la concurrence difficile pour les nouveaux venus ou les développeurs occasionnels.
Cependant, Nous Research se distingue en plaidant pour un développement d'IA accessible et puissant, personnalisable sans restrictions.
Ce qui distingue DisTrO
Les méthodes traditionnelles d'entraînement de l'IA nécessitent la synchronisation de gradients complets entre plusieurs GPU et dépendent de connexions à haut débit. En revanche, DisTrO minimise les frais de communication de quatre à cinq ordres de grandeur. Bien que les algorithmes spécifiques qui permettent cette efficacité n'aient pas encore été entièrement divulgués, les auteurs prévoient de partager plus de détails bientôt. Cette réduction a été obtenue sans recourir à une analyse amortie ni compromettre le taux de convergence, permettant l'entraînement de modèles à grande échelle sur des connexions Internet plus lentes — 100 Mbps en téléchargement et 10 Mbps en téléchargement, largement accessibles aux consommateurs.
L'équipe de recherche a testé DisTrO avec le modèle Llama 2 de Meta, un modèle de langage de grande taille (LLM) de 1,2 milliard de paramètres. Les résultats ont montré des performances d'entraînement comparables aux méthodes traditionnelles tout en réduisant considérablement le transfert de données. L'équipe note que ce modèle est le plus petit efficace avec DisTrO et reste incertaine quant à la manière dont la réduction de bande passante évolue avec la taille du modèle.
Des tests préliminaires indiquent une réduction de bande passante potentielle de 1000x à 3000x pendant la pré-formation et jusqu'à 10000x pendant la post-formation, sans dégradation notable des performances. Ils spéculent également que DisTrO pourrait être appliqué à l'entraînement de grands modèles de diffusion, tels que Stable Diffusion et des services similaires de génération d'images.
L'indispensabilité des GPU
Il est crucial de noter que DisTrO nécessite toujours des GPU, mais permet leur fonctionnement de manière distribuée au niveau mondial plutôt que de les regrouper dans le même établissement. Plus précisément, l'évaluation a impliqué 32 GPU H100 utilisant la stratégie de parallélisme des données distribuées (DDP), où chaque GPU hébergeait l'intégralité du modèle dans la VRAM. Ce cadre a permis de tester rigoureusement les capacités de DisTrO, prouvant qu'il peut égaler les taux de convergence d'AdamW+All-Reduce, tout en réduisant considérablement les besoins en communication.
DisTrO pourrait bouleverser les méthodes d'entraînement traditionnelles sans sacrifier la qualité du modèle, offrant une solution évolutive pour l'entraînement distribué à grande échelle. En réduisant le besoin de connexions à haute vitesse, il permet l'entraînement collaboratif de modèles à travers des réseaux décentralisés, même parmi des utilisateurs disposant de services Internet standards.
Le rapport de recherche explore également les implications de DisTrO pour l'apprentissage fédéré et l'entraînement décentralisé. Sa efficacité pourrait également contribuer à atténuer l'impact environnemental de l'entraînement IA en optimisant les infrastructures existantes et en réduisant la dépendance aux grands centres de données.
De plus, ces innovations pourraient changer le paradigme de l'entraînement de modèles à grande échelle, passant de centres de données centralisés et gourmands en ressources à des méthodes plus distribuées et collaboratives utilisant une variété de ressources informatiques.
Quelle est la suite pour Nous Research et DisTrO ?
L'équipe de recherche invite d'autres à les rejoindre pour explorer les possibilités de DisTrO. Des rapports préliminaires et des matériaux supplémentaires sont disponibles sur GitHub, et ils recherchent activement des collaborateurs pour affiner et élargir cette technologie innovante.
Les influenceurs de l'IA, tels que @kimmonismus sur X, ont salué cette recherche comme potentiellement transformative pour le domaine, déclarant : « Cela pourrait tout changer ! »
Avec DisTrO, Nous Research non seulement améliore les capacités d'entraînement de l'IA mais favorise également un écosystème de recherche plus inclusif, capable d'ouvrir la voie à des avancées significatives en intelligence artificielle.