Il n'existe pas de compteur unique pour mesurer les performances des modèles d'IA générative, mais un indicateur clé est le nombre de tokens traités par seconde. Aujourd'hui, SambaNova Systems a annoncé un accomplissement significatif en matière de performances d'IA générative, atteignant un impressionnant 1 000 tokens par seconde avec le modèle d'instruction Llama 3 8B. Auparavant, le meilleur score pour Llama 3 était de 800 tokens par seconde, détenu par Groq. Ce nouveau palier a été vérifié de manière indépendante par la société de test Artificial Analysis. L'augmentation de la vitesse de traitement a des implications majeures pour les entreprises, pouvant entraîner des temps de réponse plus rapides, une utilisation optimale du matériel et des coûts opérationnels réduits.
Une Course pour la Performance de l'IA
« Nous assistons à une accélération de la course aux puces d'IA au-delà des attentes. Nous étions ravis de valider les affirmations de SambaNova grâce à des benchmarks indépendants axés sur la performance réelle », a déclaré George Cameron, cofondateur d'Artificial Analysis. « Les développeurs d'IA disposent désormais d'un plus large éventail d'options matérielles, ce qui est particulièrement bénéfique pour les applications dépendantes de la vitesse, comme les agents d'IA et les solutions d'IA grand public nécessitant des temps de réponse minimaux et un traitement efficace des documents. »
Comment SambaNova Accélère Llama 3 et l'IA Générative
SambaNova se consacre à la création de solutions d'IA générative axées sur les entreprises, intégrant des capacités matérielles et logicielles.
Du côté matériel, l'entreprise a conçu une puce d'IA unique connue sous le nom d'Unité de Flux de Données Reconfigurable (RDU). À l'instar des accélérateurs d'IA de Nvidia, les RDUs excellent tant dans l'entraînement que dans l'inférence, tout en optimisant les charges de travail des entreprises et le réglage des modèles. Le dernier modèle, le SN40L, a été présenté en septembre 2023.
SambaNova propose également une pile logicielle propriétaire, incluant le modèle Samba-1, lancé le 28 février. Ce modèle, comprenant 1 trillion de paramètres, est désigné sous le nom de Samba-CoE (Combination of Experts), permettant aux entreprises d'utiliser plusieurs modèles séparément ou en combinaison, adaptés à leurs besoins en données.
Pour atteindre la vitesse de 1 000 tokens par seconde, SambaNova a utilisé son modèle Samba-1 Turbo, une version API mise à disposition pour les tests. L’entreprise prévoit d’intégrer ces améliorations de vitesse dans son modèle d’entreprise principal prochainement. Cependant, Cameron a noté que les 800 tokens par seconde de Groq se réfèrent à son point de terminaison API public, tandis que les résultats de SambaNova proviennent d’un point de terminaison privé dédié, rendant les comparaisons directes moins évidentes.
« Néanmoins, cette vitesse dépasse de plus de 8 fois la moyenne des autres fournisseurs d'API que nous avons analysés et est plusieurs fois plus rapide que les taux de sortie habituels sur Nvidia H100 », a déclaré Cameron.
Flux de Données Reconfigurable pour des Performances Améliorées
Les performances de SambaNova sont propulsées par son architecture de flux de données reconfigurable, au cœur de sa technologie RDU. Cette architecture permet une allocation optimisée des ressources à travers les couches et les noyaux des réseaux neuronaux grâce à la cartographie par compilateur.
« Avec le flux de données, nous pouvons continuellement affiner les mappings des modèles puisqu'ils sont entièrement reconfigurables », a déclaré Rodrigo Liang, PDG et fondateur de SambaNova. « Cela conduit à des gains considérables en efficacité et en performance au fur et à mesure que le logiciel évolue. »
Initialement, lors du lancement de Llama 3, l'équipe de Liang avait atteint une performance de 330 tokens par seconde sur Samba-1. Grâce à des optimisations intensives au cours des derniers mois, cette vitesse a désormais triplé pour atteindre 1 000 tokens par seconde. Liang a expliqué que l'optimisation implique un équilibre de la distribution des ressources parmi les noyaux pour éviter les goulets d'étranglement et maximiser le débit global au sein de la pipeline des réseaux neuronaux, une approche similaire à celle de la pile logicielle de SambaNova pour aider les entreprises dans leurs efforts de réglage.
Qualité Entreprise et Vitesse Supérieure
Liang a souligné que SambaNova atteint cette étape de vitesse en utilisant une précision de 16 bits, une norme qui garantit la qualité requise par les entreprises.
Il a déclaré : « Nous avons systématiquement utilisé une précision de 16 bits pour nos clients, car ils privilégient la qualité et la minimisation des hallucinations dans les résultats. »
L'importance de la vitesse pour les utilisateurs professionnels croît à mesure que les organisations adoptent de plus en plus des flux de travail pilotés par des agents IA. De plus, des temps de génération plus rapides offrent des avantages économiques.
« Plus nous pouvons générer rapidement des réponses, plus nous libérons de ressources pour les autres », a-t-il noté. « En fin de compte, cela conduit à une infrastructure plus compacte et à des économies de coûts. »