Le directeur de l'ingénierie de Meta pour l'IA générative, Sergey Edunov, a récemment avancé une estimation surprenante concernant l'énergie nécessaire pour répondre à la demande croissante d'applications d'intelligence artificielle au cours de l'année à venir : seulement deux nouvelles centrales nucléaires.
Lors d'une table ronde que j'ai animée au Digital Workers Forum dans la Silicon Valley, Edunov, responsable de la formation du modèle open-source Llama 2 de Meta, a affirmé que cette quantité d'énergie suffirait à soutenir les besoins en IA de l'humanité pendant un an. Face aux préoccupations concernant la capacité mondiale à supporter les exigences énergétiques croissantes de l'IA générative, il a déclaré : « Nous pouvons certainement résoudre ce problème. »
Edunov a reconnu que son estimation reposait sur des calculs approximatifs, mais il la considérait comme raisonnable pour l'énergie requise pour l'« inférence ». Ce processus intervient lorsque l'IA répond à des requêtes ou fait des recommandations, après l'entraînement approfondi d'un modèle.
Besoins Énergétiques pour l'Inference Maîtrisés
Edunov a fait la distinction entre les exigences énergétiques de l'inférence et celles de l'entraînement. Il a expliqué que l'inférence constituerait la majorité du traitement lors du déploiement des applications IA. Son calcul pour l'inférence reposait sur la libération attendue d'un à deux millions de GPU H100 par Nvidia l'année prochaine. Lorsqu'ils seront pleinement utilisés pour générer des tokens pour des modèles de langage de taille moyenne (LLMs), cela équivaut à environ 100 000 tokens par personne sur Terre chaque jour, ce qui représente une quantité considérable.
Les tokens sont les unités fondamentales de texte que les LLMs utilisent pour traiter et générer du langage. L'énergie nécessaire pour ces calculs est significative ; chaque GPU H100 consomme environ 700 watts. En tenant compte de l'énergie additionnelle pour les centres de données et le refroidissement, Edunov a arrondi ce chiffre à 1 kilowatt par GPU. Il a finalement conclu que deux réacteurs nucléaires suffiraient à alimenter tous les GPU efficacement. « À l'échelle de l'humanité, ce n'est pas tant que ça », a noté Edunov, suggérant que la société pourrait raisonnablement soutenir 100 000 tokens par jour et par personne.
Former l'IA Générative : Le Défi des Données
En revanche, Edunov a souligné que l'entraînement des LLMs représente un défi différent : l'acquisition de données suffisantes. Il a estimé que bien que l'ensemble de l'internet accessible au public compte environ 100 trillions de tokens, ce nombre diminue significativement après nettoyage et dé-duplication, potentiellement jusqu'à 10-20 trillions de tokens. Il a exprimé des inquiétudes quant au fait que les modèles de prochaine génération pourraient nécessiter un ordre de grandeur plus de données que les itérations précédentes. Par exemple, si GPT-4 a été entraîné sur 20 trillions de tokens, le prochain modèle pourrait nécessiter environ 200 trillions de tokens, et ces données pourraient ne pas être facilement disponibles.
Edunov a souligné que les chercheurs explorent des techniques d'efficacité pour améliorer l'apprentissage des modèles à partir de ensembles de données plus petites, tout en exploitant des sources de données alternatives, comme des entrées multimodales (y compris la vidéo).
Perspectives sur les Ressources en Données et Technologies
Edunov a participé à un panel intitulé « Génération de Tokens : L'Électricité de l'Ère GenAI », aux côtés de Nik Spirin, Directeur de l'IA Générative chez Nvidia, et Kevin Tsai, Responsable de l'Architecture des Solutions pour l'IA Générative chez Google. Spirin a fait écho à la réflexion d'Edunov, indiquant qu'il existait des réservoirs de données supplémentaires au-delà de l'internet public, même si l'accès est restreint.
Spirin a plaidé pour des modèles fondamentaux open-source solides afin de réduire les redondances informatiques à travers des efforts indépendants. Cette approche collaborative pourrait tirer parti de modèles pré-entraînés, permettant aux organisations de se concentrer sur le développement d'applications en aval intelligentes.
Tsai a fait remarquer que plusieurs technologies émergentes, comme la Génération Augmentée par Récupération (RAG), pourraient alléger le fardeau de l'entraînement tout en améliorant les performances des modèles. Les initiatives collaboratives pourraient aboutir à des modèles polyvalents applicables à divers domaines, ce qu'il considère essentiel pour la durabilité.
Prédictions Futuristes pour le Développement des LLM
À la fin du panel, j'ai invité les panélistes à partager leurs prédictions concernant les avancées des LLM au cours des deux à trois prochaines années. Ils ont unanimement noté que bien que la trajectoire exacte des améliorations des LLM reste incertaine, la valeur substantielle qu'ils apportent est déjà évidente, avec une adoption généralisée prévue dans deux ans.
Edunov a prédit que nous aurions une clarté sur la faisabilité de l'intelligence artificielle générale (AGI) dans trois à quatre ans. S'appuyant sur les tendances technologiques passées, Spirin a suggéré que les entreprises pourraient d'abord être prudentes dans l'adoption des technologies IA, mais une valeur significative devrait se matérialiser dans deux ans.
Tsai a identifié les défis de la chaîne d'approvisionnement, liés à la dépendance de Nvidia à la mémoire à large bande pour les GPU, comme un goulot d'étranglement crucial dans l'amélioration des modèles. Cependant, il a exprimé de l'optimisme quant à des innovations comme le projet Blib-2 de Salesforce, qui vise à créer des modèles plus petits et plus efficaces, contournant potentiellement les limitations actuelles.