Le chip révolutionnaire de Groq offre des performances inégalées de 800 jetons par seconde avec LLaMA 3 de Meta.

Home Actualités IA Le chip révolutionnaire de Groq offre des performances inégalées de 800 jetons par seconde avec LLaMA 3 de Meta.

Dans une révélation marquante, la startup de puces Groq a suggéré via des retweets que son système atteint plus de 800 jetons par seconde avec le nouveau modèle de langage LLaMA 3 de Meta. Dan Jakaitis, un ingénieur en charge de l'évaluation de LLaMA 3, a déclaré sur X (anciennement Twitter) : « Nous avons testé leur API, et le service n'est définitivement pas aussi rapide que les démonstrations matérielles l'ont montré. Cela semble être davantage un problème logiciel—je suis toujours enthousiaste pour l'adoption plus large de Groq. »

En revanche, le cofondateur et PDG d’OthersideAI, Matt Shumer, ainsi que d'autres utilisateurs influents, rapportent effectivement que le système de Groq fournit des vitesses d'inférence rapides dépassant 800 jetons par seconde avec LLaMA 3. Si cette performance est confirmée, elle surpasserait de manière significative les services cloud AI existants.

Une architecture de processeur novatrice optimisée pour l'IA

Groq, une startup de la Silicon Valley bien financée, innove avec une architecture de processeur unique conçue pour les opérations de multiplication matricielle essentielles à l'apprentissage profond. Son Tensor Streaming Processor évite les caches traditionnels et la logique de contrôle complexe des CPU et GPU, favorisant un modèle d'exécution simplifié spécifiquement dédié aux tâches d'IA.

En réduisant les surcharges et les goulets d'étranglement en mémoire typiques des processeurs généralistes, Groq affirme pouvoir offrir des performances et une efficacité supérieures pour l'inférence de l'IA. Le résultat impressionnant de 800 jetons par seconde avec LLaMA 3, s'il est validé, soutiendrait cette affirmation.

L'architecture de Groq s'écarte nettement de celle de Nvidia et d'autres fabricants de puces établis. Au lieu de modifier des puces généralistes pour l'IA, Groq a conçu son Tensor Streaming Processor spécifiquement pour répondre aux exigences computationnelles de l'apprentissage profond.

Cette approche innovante permet à Groq d'éliminer les circuits inutiles et d'optimiser le flux de données pour les tâches répétitives et parallélisables inhérentes à l'inférence de l'IA. Le résultat est une réduction marquée de la latence, de la consommation d'énergie et des coûts associés à l'exploitation de grands réseaux neuronaux par rapport aux alternatives classiques.

Le besoin d'une inférence AI rapide et efficace

Atteindre 800 jetons par seconde équivaut à environ 48,000 jetons par minute—suffisant pour générer environ 500 mots en une seconde. Cette vitesse est presque dix fois supérieure aux taux d'inférence typiques pour les grands modèles de langage sur des GPU conventionnels dans le cloud aujourd'hui.

À mesure que les modèles de langage deviennent de plus en plus vastes, avec des milliards de paramètres, la demande pour une inférence AI rapide et efficace devient urgente. Tandis que l'entraînement de ces modèles massifs est intensif en calcul, leur déploiement économique dépend d'un matériel capable de traiter rapidement sans consommer une énergie excessive. Cela est crucial pour des applications sensibles à la latence telles que les chatbots, les assistants virtuels et les plateformes interactives.

L'efficacité énergétique de l'inférence AI prend de l'importance avec l'expansion de cette technologie. Les centres de données sont déjà d'importants consommateurs d'énergie, et les exigences computationnelles des grandes IA pourraient aggraver ce problème. Un matériel qui équilibre haute performance et faible consommation d'énergie est essentiel pour rendre l'IA durable à grande échelle, et le Tensor Streaming Processor de Groq est conçu pour relever ce défi d'efficacité.

Défi à la domination de Nvidia

Nvidia domine actuellement le marché des processeurs AI avec ses GPU A100 et H100, alimentant la majorité des services cloud AI. Cependant, une nouvelle vague de startups, dont Groq, Cerebras, SambaNova et Graphcore, émerge avec des architectures innovantes spécialement conçues pour l’IA.

Parmi ces challengers, Groq se distingue par son engagement à la fois pour l'inférence et l'entraînement. Le PDG Jonathan Ross a prédit avec assurance qu'à la fin de 2024, la plupart des startups AI adopteront les processeurs à tensor de faible précision de Groq pour l'inférence.

Le lancement de LLaMA 3 par Meta, décrit comme l’un des modèles de langage open-source les plus performants, représente pour Groq une occasion idéale de démontrer ses capacités d'inférence. Si la technologie de Groq peut surpasser les alternatives conventionnelles pour faire fonctionner LLaMA 3, cela validerait les revendications de la startup et accélérerait son adoption sur le marché. La société a également établi une nouvelle unité commerciale pour améliorer l'accessibilité de ses puces via des services cloud et des partenariats stratégiques.

La convergence de modèles ouverts puissants comme LLaMA et du matériel d'inférence AI efficace de Groq pourrait rendre l'IA avancée plus accessible et économique pour un public plus large d'entreprises et de développeurs. Cependant, Nvidia demeure un concurrent redoutable, et d'autres challengers sont prêts à exploiter de nouvelles opportunités.

Alors que la course s'intensifie pour construire une infrastructure capable de suivre les avancées rapides du développement des modèles d'IA, atteindre une inférence AI en quasi temps réel à un coût abordable pourrait révolutionner divers secteurs, notamment le commerce électronique, l'éducation, la finance et la santé.

Un utilisateur sur X.com a résumé le moment avec concision : « vitesse + faible coût + qualité = il n’est pas logique d'utiliser autre chose [pour l'instant]. » Les prochains mois détermineront si cette affirmation est fondée, soulignant que le paysage du matériel AI évolue face aux défis des normes traditionnelles.

Comment les LLM transforment l'avenir de la conformité et de la gestion des risques

La critique « Pas Mal » d'Elon Musk met en lumière l'intelligence artificielle Llama 3 de Meta.

Most people like

August Melon Technology

336.5K

Dans le paysage compétitif d'aujourd'hui, la récupération et l'analyse efficaces des brevets à l'échelle mondiale jouent un rôle crucial dans la promotion de l'innovation et la protection de la propriété intellectuelle. En rassemblant et en examinant systématiquement les données des brevets du monde entier, les entreprises et les chercheurs peuvent identifier des tendances, découvrir des informations sur la concurrence et prendre des décisions éclairées. Ce processus améliore non seulement la planification stratégique, mais favorise également la croissance en s'alignant sur les avancées technologiques et les évolutions du marché. Rejoignez-nous pour explorer les méthodes et outils essentiels afin de naviguer dans les complexités de l'information mondiale sur les brevets et d'optimiser votre stratégie d'innovation.

recherche de brevets Other

Decoritt

60.4K

Découvrez l'avenir du design d'intérieur avec notre plateforme innovante de conception de maison par IA. Cet outil puissant exploite les dernières avancées en intelligence artificielle pour vous aider à créer et visualiser facilement vos espaces de vie de rêve. Que vous soyez un designer professionnel ou un amateur de bricolage, notre plateforme propose des solutions personnalisées répondant à votre style et à vos besoins uniques. Grâce à des fonctionnalités intuitives et des recommandations de design intelligentes, transformer votre maison n'a jamais été aussi simple et agréable. Rejoignez-nous pour explorer comment notre technologie IA peut redéfinir votre approche du design intérieur.

Design d'intérieur assisté par IA AI Photo & Image Generator

Flair AI

532K

Flair est un outil d'IA innovant conçu pour optimiser et améliorer la personnalisation de la photographie produit. Cette solution puissante facilite aux entreprises la création d'images époustouflantes et sur mesure qui captivent leur audience et augmentent leur visibilité en ligne.

outil de conception IA AI Ad Creative Assistant

Paraphrasing Tool AI

172.7K

Un outil d'écriture IA permet aux utilisateurs de reformuler et d'affiner leur contenu, prévenant ainsi le plagiat et améliorant l'originalité.

Outil de reformulation Paraphraser

Find AI tools in YBX