SambaNova établit un nouveau record de vitesse pour Llama 3 à 1 000 jetons par seconde

Home Actualités IA SambaNova établit un nouveau record de vitesse pour Llama 3 à 1 000 jetons par seconde

Il n'existe pas de compteur unique pour mesurer les performances des modèles d'IA générative, mais un indicateur clé est le nombre de tokens traités par seconde. Aujourd'hui, SambaNova Systems a annoncé un accomplissement significatif en matière de performances d'IA générative, atteignant un impressionnant 1 000 tokens par seconde avec le modèle d'instruction Llama 3 8B. Auparavant, le meilleur score pour Llama 3 était de 800 tokens par seconde, détenu par Groq. Ce nouveau palier a été vérifié de manière indépendante par la société de test Artificial Analysis. L'augmentation de la vitesse de traitement a des implications majeures pour les entreprises, pouvant entraîner des temps de réponse plus rapides, une utilisation optimale du matériel et des coûts opérationnels réduits.

Une Course pour la Performance de l'IA

« Nous assistons à une accélération de la course aux puces d'IA au-delà des attentes. Nous étions ravis de valider les affirmations de SambaNova grâce à des benchmarks indépendants axés sur la performance réelle », a déclaré George Cameron, cofondateur d'Artificial Analysis. « Les développeurs d'IA disposent désormais d'un plus large éventail d'options matérielles, ce qui est particulièrement bénéfique pour les applications dépendantes de la vitesse, comme les agents d'IA et les solutions d'IA grand public nécessitant des temps de réponse minimaux et un traitement efficace des documents. »

Comment SambaNova Accélère Llama 3 et l'IA Générative

SambaNova se consacre à la création de solutions d'IA générative axées sur les entreprises, intégrant des capacités matérielles et logicielles.

Du côté matériel, l'entreprise a conçu une puce d'IA unique connue sous le nom d'Unité de Flux de Données Reconfigurable (RDU). À l'instar des accélérateurs d'IA de Nvidia, les RDUs excellent tant dans l'entraînement que dans l'inférence, tout en optimisant les charges de travail des entreprises et le réglage des modèles. Le dernier modèle, le SN40L, a été présenté en septembre 2023.

SambaNova propose également une pile logicielle propriétaire, incluant le modèle Samba-1, lancé le 28 février. Ce modèle, comprenant 1 trillion de paramètres, est désigné sous le nom de Samba-CoE (Combination of Experts), permettant aux entreprises d'utiliser plusieurs modèles séparément ou en combinaison, adaptés à leurs besoins en données.

Pour atteindre la vitesse de 1 000 tokens par seconde, SambaNova a utilisé son modèle Samba-1 Turbo, une version API mise à disposition pour les tests. L’entreprise prévoit d’intégrer ces améliorations de vitesse dans son modèle d’entreprise principal prochainement. Cependant, Cameron a noté que les 800 tokens par seconde de Groq se réfèrent à son point de terminaison API public, tandis que les résultats de SambaNova proviennent d’un point de terminaison privé dédié, rendant les comparaisons directes moins évidentes.

« Néanmoins, cette vitesse dépasse de plus de 8 fois la moyenne des autres fournisseurs d'API que nous avons analysés et est plusieurs fois plus rapide que les taux de sortie habituels sur Nvidia H100 », a déclaré Cameron.

Flux de Données Reconfigurable pour des Performances Améliorées

Les performances de SambaNova sont propulsées par son architecture de flux de données reconfigurable, au cœur de sa technologie RDU. Cette architecture permet une allocation optimisée des ressources à travers les couches et les noyaux des réseaux neuronaux grâce à la cartographie par compilateur.

« Avec le flux de données, nous pouvons continuellement affiner les mappings des modèles puisqu'ils sont entièrement reconfigurables », a déclaré Rodrigo Liang, PDG et fondateur de SambaNova. « Cela conduit à des gains considérables en efficacité et en performance au fur et à mesure que le logiciel évolue. »

Initialement, lors du lancement de Llama 3, l'équipe de Liang avait atteint une performance de 330 tokens par seconde sur Samba-1. Grâce à des optimisations intensives au cours des derniers mois, cette vitesse a désormais triplé pour atteindre 1 000 tokens par seconde. Liang a expliqué que l'optimisation implique un équilibre de la distribution des ressources parmi les noyaux pour éviter les goulets d'étranglement et maximiser le débit global au sein de la pipeline des réseaux neuronaux, une approche similaire à celle de la pile logicielle de SambaNova pour aider les entreprises dans leurs efforts de réglage.

Qualité Entreprise et Vitesse Supérieure

Liang a souligné que SambaNova atteint cette étape de vitesse en utilisant une précision de 16 bits, une norme qui garantit la qualité requise par les entreprises.

Il a déclaré : « Nous avons systématiquement utilisé une précision de 16 bits pour nos clients, car ils privilégient la qualité et la minimisation des hallucinations dans les résultats. »

L'importance de la vitesse pour les utilisateurs professionnels croît à mesure que les organisations adoptent de plus en plus des flux de travail pilotés par des agents IA. De plus, des temps de génération plus rapides offrent des avantages économiques.

« Plus nous pouvons générer rapidement des réponses, plus nous libérons de ressources pour les autres », a-t-il noté. « En fin de compte, cela conduit à une infrastructure plus compacte et à des économies de coûts. »

Kinetix et Overdare offrent aux joueurs des outils innovants d'IA générative.

PwC s'associe à OpenAI : premier revendeur des solutions ChatGPT Enterprise.

Most people like

ProAI

27.1K

Solutions IA personnalisées conçues pour accélérer la croissance des entreprises.

Alimenté par l'IA Marketing Plan Generator

Kraftful

32.4K

Kraftful utilise une technologie AI avancée pour analyser les retours des utilisateurs, améliorant ainsi les produits afin de créer une expérience utilisateur exceptionnelle. En se concentrant sur les insights des utilisateurs, Kraftful garantit une amélioration continue et un alignement avec les besoins des clients.

outil alimenté par l'IA AI Product Description Generator

NsfwGPT.AI

256.8K

Dans le paysage numérique en constante évolution d'aujourd'hui, l'intersection de l'intelligence artificielle (IA) et des expériences immersives captive un public de plus en plus large. À mesure que la technologie progresse, la communauté de l'IA met à profit des outils innovants pour transformer notre interaction avec notre environnement, enrichissant à la fois le divertissement et l'apprentissage. Explorer cette fusion dynamique met en lumière non seulement le potentiel de l'IA, mais aussi son rôle dans la création d'expériences engageantes et immersives qui résonnent avec les utilisateurs. Rejoignez-nous pour découvrir comment l'IA révolutionne notre compréhension et notre engagement envers le monde qui nous entoure.

technologie IA NSFW

Praktika

110.1K

Praktika est une application innovante d'apprentissage des langues qui utilise des avatars AI pour offrir des cours d'anglais immersifs et réalistes. Grâce à son approche captivante, Praktika transforme la manière dont les utilisateurs apprennent, rendant l'acquisition de la langue plus agréable et efficace.

apprentissage des langues AI Character

Find AI tools in YBX