Nvidia n'est pas seul sur le marché des accélérateurs d'IA ; Intel fait des progrès significatifs avec sa technologie Gaudi 2, comme le montre une nouvelle étude de Databricks.
Cette recherche révèle qu'Intel Gaudi 2 rivalise efficacement avec les principaux accélérateurs d'IA de Nvidia. Pour l'inférence des modèles de langage volumineux (LLM), Gaudi 2 égalise la latence des systèmes Nvidia H100 en décodage et surpasse la performance du Nvidia A100. De plus, Gaudi 2 atteint une utilisation de la bande passante mémoire supérieure à celle des H100 et A100.
Bien que les accélérateurs haut de gamme de Nvidia restent performants pour l'entraînement, Databricks a découvert que Gaudi 2 offre la seconde meilleure performance d'entraînement en nœud unique pour les LLM, après le Nvidia H100, avec plus de 260 TFLOPS par puce. Notablement, en se basant sur les prix du cloud public, Gaudi 2 présente le meilleur rapport performance-coût pour l'entraînement et l'inférence par rapport aux A100 et H100.
Intel partage également les résultats de ses tests Gaudi 2 via le benchmark MLcommons MLPerf pour l'entraînement et l'inférence, validant ainsi la performance de la technologie par des données tierces. "Nous avons été impressionnés par l'efficacité de Gaudi 2, particulièrement dans l'inférence des LLM," a déclaré Abhinav Venigalla, architecte principal NLP chez Databricks. Il a souligné que l'équipe n'avait pas eu le temps d'explorer pleinement les avantages de la prise en charge FP8 de Gaudi 2 dans la dernière version du logiciel.
Les insights d'Intel vont dans le sens des conclusions de Databricks. Eitan Medina, COO de Habana Labs (filiale d'Intel), a affirmé que le rapport corroborait les métriques de performance internes d'Intel et les retours des clients. "Valider nos affirmations est essentiel, surtout quand beaucoup considèrent Gaudi comme le secret le mieux gardé d'Intel," a-t-il souligné, insistant sur l'importance de telles publications pour accroître la visibilité.
Depuis l'acquisition de Habana Labs et de sa technologie Gaudi en 2019 pour 2 milliards de dollars, Intel a continuellement amélioré ses capacités. À la fois Intel et Nvidia participent activement aux benchmarks MLcommons MLPerf, régulièrement mis à jour. Les derniers benchmarks MLPerf 3.1, publiés en novembre, ont montré de nouveaux records de vitesse d'entraînement de LLM pour les deux entreprises, accompagnés de performances compétitives dans les benchmarks d'inférence de septembre.
Bien que des benchmarks comme MLPerf soient éclairants, Medina a souligné que de nombreux clients priorisent leurs tests pour garantir la compatibilité avec des modèles et des cas d'utilisation spécifiques. "La maturité de la pile logicielle est cruciale, car les clients sont parfois sceptiques à l'égard des benchmarks où les fournisseurs optimisent fortement pour des métriques spécifiques,” a-t-il ajouté. Il considère les résultats MLPerf comme un filtre initial précieux avant que les entreprises n'investissent davantage de temps dans les tests.
En vue de l'avenir, Intel se prépare à introduire l'accélérateur d'IA Gaudi 3 en 2024. Gaudi 3, fabriqué sur un processus de 5 nanomètres, promet de fournir quatre fois la puissance de traitement et le double de la bande passante réseau par rapport à Gaudi 2. Medina a affirmé : "Gaudi 3 représente un saut significatif en performance, améliorant le rapport performance par dollar et par watt."
Au-delà de Gaudi 3, Intel prévoit de développer de futures générations intégrant des technologies de calcul haute performance (HPC) et des accélérateurs d'IA. La société reconnaît également l'importance de ses technologies CPU pour les charges de travail d'inférence en IA, annonçant récemment des processeurs Xeon de 5e génération avec accélération IA. "Les CPU jouent toujours un rôle crucial dans les tâches d'inférence et de réglage fin, surtout lorsqu'ils sont combinés avec des accélérateurs Gaudi pour des charges de travail IA à haute densité," a conclu Medina, plaidant pour une gamme diversifiée de solutions.