Nvidia не единственный в сфере ИИ-ускорителей; Intel делает значительные успехи благодаря своей технологии Gaudi 2, как показывает новое исследование Databricks. Оно демонстрирует, что Intel Gaudi 2 уверенно конкурирует с ведущими ИИ-ускорителями Nvidia. Для вывода больших языковых моделей (LLM) Gaudi 2 сопоставим по задержке с системами Nvidia H100 на этапе декодирования и превосходит производительность Nvidia A100. Кроме того, Gaudi 2 достигает более высокойutilизацииbandwidth памяти, чем H100 и A100.
Хотя лучшие ускорители Nvidia все еще обеспечивают превосходную производительность на этапе обучения, Databricks обнаружил, что Gaudi 2 предлагает вторую по скорости производительность LLM-обучения на одном узле после Nvidia H100, обеспечивая более 260 TFLOPS на чип. Примечательно, что на основе цен в публичных облаках Gaudi 2 предлагает наилучшее соотношение цена-производительность как для обучения, так и для вывода по сравнению с A100 и H100.
Intel также делится результатами тестирования Gaudi 2 через MLcommons MLPerf, что дополнительно подтверждает производительность технологии с помощью сторонних данных. «Мы были впечатлены эффективностью Gaudi 2, особенно в выводе LLM», - отметил Абхинав Венигала, главный архитектор NLP в Databricks. Он добавил, что команде не хватило времени для полного исследования преимуществ производительности поддержки FP8 в последнем выпуске программного обеспечения.
Инсайты Intel совпадают с выводами Databricks. Эйтан Медина, COO Habana Labs (дочерняя компания Intel), заявил, что отчет подтверждает внутренние метрики производительности Intel и отзывы клиентов. «Подтверждение наших заявлений имеет решающее значение, особенно когда многие считают Gaudi секретом Intel», - отметил он, подчеркивая важность таких публикаций для повышения видимости.
После приобретения Habana Labs и технологии Gaudi в 2019 году за 2 миллиарда долларов Intel последовательно улучшает свои возможности. Как Intel, так и Nvidia активно участвуют в MLcommons MLPerf, результаты которого регулярно обновляются. Последние бенчмарки MLPerf 3.1, выпущенные в ноябре, показали новые рекорды скорости обучения LLM для обеих компаний, дополненные конкурентоспособной производительностью в сентябрьских бенчмарках вывода.
Хотя бенчмарки, такие как MLPerf, весьма информативны, Медина отметил, что многие клиенты придают приоритет своим тестированиям, чтобы обеспечить совместимость с конкретными моделями и сценариями использования. «Зрелость программного обеспечения имеет решающее значение, так как клиенты иногда скептически относятся к бенчмаркам, где поставщики сильно оптимизируют для конкретных показателей», - сказал он. Он рассматривает результаты MLPerf как ценное начальное фильтр для компаний перед тем, как инвестировать больше времени в тестирование.
Взглянув в будущее, Intel готовится представить ИИ-ускоритель Gaudi 3 в 2024 году. Gaudi 3, построенный на 5-нанометровом процессе, обещает в четыре раза больше вычислительной мощности и в два раза большую пропускную способность сети по сравнению с Gaudi 2. Медина напомнил: «Gaudi 3 представляет собой значительный скачок в производительности, увеличивая эффективность затрат на доллар и ватт».
Помимо Gaudi 3, Intel планирует разработать будущие поколения, которые интегрируют высокопроизводительные вычисления (HPC) и технологии ИИ-ускорителей. Компания также осознает важность своих технологий CPU для рабочих нагрузок вывода ИИ, недавно анонсировав процессоры 5-го поколения Xeon с ИИ-ускорением. «CPU по-прежнему играет ключевую роль в задачах вывода и корректировки, особенно в сочетании с ускорителями Gaudi для высокоплотных вычислительных загрузок ИИ», - заключил Медина, подчеркивая необходимость разнообразия решений.