Dans une révélation marquante, la startup de puces Groq a suggéré via des retweets que son système atteint plus de 800 jetons par seconde avec le nouveau modèle de langage LLaMA 3 de Meta. Dan Jakaitis, un ingénieur en charge de l'évaluation de LLaMA 3, a déclaré sur X (anciennement Twitter) : « Nous avons testé leur API, et le service n'est définitivement pas aussi rapide que les démonstrations matérielles l'ont montré. Cela semble être davantage un problème logiciel—je suis toujours enthousiaste pour l'adoption plus large de Groq. »
En revanche, le cofondateur et PDG d’OthersideAI, Matt Shumer, ainsi que d'autres utilisateurs influents, rapportent effectivement que le système de Groq fournit des vitesses d'inférence rapides dépassant 800 jetons par seconde avec LLaMA 3. Si cette performance est confirmée, elle surpasserait de manière significative les services cloud AI existants.
Une architecture de processeur novatrice optimisée pour l'IA
Groq, une startup de la Silicon Valley bien financée, innove avec une architecture de processeur unique conçue pour les opérations de multiplication matricielle essentielles à l'apprentissage profond. Son Tensor Streaming Processor évite les caches traditionnels et la logique de contrôle complexe des CPU et GPU, favorisant un modèle d'exécution simplifié spécifiquement dédié aux tâches d'IA.
En réduisant les surcharges et les goulets d'étranglement en mémoire typiques des processeurs généralistes, Groq affirme pouvoir offrir des performances et une efficacité supérieures pour l'inférence de l'IA. Le résultat impressionnant de 800 jetons par seconde avec LLaMA 3, s'il est validé, soutiendrait cette affirmation.
L'architecture de Groq s'écarte nettement de celle de Nvidia et d'autres fabricants de puces établis. Au lieu de modifier des puces généralistes pour l'IA, Groq a conçu son Tensor Streaming Processor spécifiquement pour répondre aux exigences computationnelles de l'apprentissage profond.
Cette approche innovante permet à Groq d'éliminer les circuits inutiles et d'optimiser le flux de données pour les tâches répétitives et parallélisables inhérentes à l'inférence de l'IA. Le résultat est une réduction marquée de la latence, de la consommation d'énergie et des coûts associés à l'exploitation de grands réseaux neuronaux par rapport aux alternatives classiques.
Le besoin d'une inférence AI rapide et efficace
Atteindre 800 jetons par seconde équivaut à environ 48,000 jetons par minute—suffisant pour générer environ 500 mots en une seconde. Cette vitesse est presque dix fois supérieure aux taux d'inférence typiques pour les grands modèles de langage sur des GPU conventionnels dans le cloud aujourd'hui.
À mesure que les modèles de langage deviennent de plus en plus vastes, avec des milliards de paramètres, la demande pour une inférence AI rapide et efficace devient urgente. Tandis que l'entraînement de ces modèles massifs est intensif en calcul, leur déploiement économique dépend d'un matériel capable de traiter rapidement sans consommer une énergie excessive. Cela est crucial pour des applications sensibles à la latence telles que les chatbots, les assistants virtuels et les plateformes interactives.
L'efficacité énergétique de l'inférence AI prend de l'importance avec l'expansion de cette technologie. Les centres de données sont déjà d'importants consommateurs d'énergie, et les exigences computationnelles des grandes IA pourraient aggraver ce problème. Un matériel qui équilibre haute performance et faible consommation d'énergie est essentiel pour rendre l'IA durable à grande échelle, et le Tensor Streaming Processor de Groq est conçu pour relever ce défi d'efficacité.
Défi à la domination de Nvidia
Nvidia domine actuellement le marché des processeurs AI avec ses GPU A100 et H100, alimentant la majorité des services cloud AI. Cependant, une nouvelle vague de startups, dont Groq, Cerebras, SambaNova et Graphcore, émerge avec des architectures innovantes spécialement conçues pour l’IA.
Parmi ces challengers, Groq se distingue par son engagement à la fois pour l'inférence et l'entraînement. Le PDG Jonathan Ross a prédit avec assurance qu'à la fin de 2024, la plupart des startups AI adopteront les processeurs à tensor de faible précision de Groq pour l'inférence.
Le lancement de LLaMA 3 par Meta, décrit comme l’un des modèles de langage open-source les plus performants, représente pour Groq une occasion idéale de démontrer ses capacités d'inférence. Si la technologie de Groq peut surpasser les alternatives conventionnelles pour faire fonctionner LLaMA 3, cela validerait les revendications de la startup et accélérerait son adoption sur le marché. La société a également établi une nouvelle unité commerciale pour améliorer l'accessibilité de ses puces via des services cloud et des partenariats stratégiques.
La convergence de modèles ouverts puissants comme LLaMA et du matériel d'inférence AI efficace de Groq pourrait rendre l'IA avancée plus accessible et économique pour un public plus large d'entreprises et de développeurs. Cependant, Nvidia demeure un concurrent redoutable, et d'autres challengers sont prêts à exploiter de nouvelles opportunités.
Alors que la course s'intensifie pour construire une infrastructure capable de suivre les avancées rapides du développement des modèles d'IA, atteindre une inférence AI en quasi temps réel à un coût abordable pourrait révolutionner divers secteurs, notamment le commerce électronique, l'éducation, la finance et la santé.
Un utilisateur sur X.com a résumé le moment avec concision : « vitesse + faible coût + qualité = il n’est pas logique d'utiliser autre chose [pour l'instant]. » Les prochains mois détermineront si cette affirmation est fondée, soulignant que le paysage du matériel AI évolue face aux défis des normes traditionnelles.