Nvidia는 AI 가속기 분야에서 홀로 존재하지 않으며, Intel은 Gaudi 2 기술로 의미 있는 발전을 이루고 있습니다. Databricks의 새로운 연구에 따르면, Intel Gaudi 2는 Nvidia의 주요 AI 가속기와 강력하게 경쟁하고 있습니다. 대형 언어 모델(LLM) 추론에서 Gaudi 2는 Nvidia H100 시스템의 지연 시간을 동일하게 유지하며, Nvidia A100의 성능을 초월합니다. 게다가 Gaudi 2는 H100과 A100보다 더 높은 메모리 대역폭 활용도를 기록합니다.
Nvidia의 최고급 가속기가 여전히 더 뛰어난 훈련 성능을 제공하는 반면, Databricks는 Gaudi 2가 Nvidia H100 다음으로 두 번째로 빠른 단일 노드 LLM 훈련 성능을 제공하며, 칩당 260 TFLOPS를 초과하는 성능을 발휘한다고 밝혔습니다. 특히 공공 클라우드 가격을 기준으로 Gaudi 2는 A100 및 H100에 비해 훈련과 추론 모두에서 최상의 성능 대비 비용 비율을 제공합니다.
Intel은 MLcommons MLPerf 벤치마크를 통해 Gaudi 2 테스트 결과를 공유하고 있으며, 이는 기술의 성능을 제3자의 데이터로 추가적으로 검증합니다. Databricks의 수석 NLP 아키텍트인 Abhinav Venigalla는 "우리는 LLM 추론에서 Gaudi 2의 효율성에 깊은 인상을 받았다"며, 최신 소프트웨어 릴리스에서 Gaudi 2의 FP8 지원으로 인한 성능 향상을 충분히 탐색할 시간이 없었다고 언급했습니다.
Intel의 인사이트는 Databricks의 연구 결과와 일치합니다. Intel 자회사인 Habana Labs의 COO Eitan Medina는 보고서가 Intel의 내부 성능 지표와 고객 피드백을 뒷받침한다고 밝혔습니다. 그는 “우리의 주장을 검증하는 것은 중요하다. 많은 사람들이 Gaudi를 Intel의 잘 지켜진 비밀로 여깁니다,"라고 강조하며, 이러한 출판물의 중요성을 언급했습니다.
2019년 Habana Labs와 Gaudi 기술을 20억 달러에 인수한 이래로 Intel은 지속적으로 능력을 향상시키고 있습니다. Intel과 Nvidia는 모두 MLcommons MLPerf 벤치마크에 적극 참여하며, 정기적으로 업데이트되고 있습니다. 최근에 발표된 MLPerf 3.1 벤치마크는 두 회사의 새로운 LLM 훈련 속도 기록을 보여주었고, 9월의 추론 벤치마크에서도 경쟁력 있는 성능을 보였습니다.
MLPerf와 같은 벤치마크는 유익하지만, Medina는 많은 고객들이 특정 모델 및 사용 사례와의 호환성을 보장하기 위해 테스트의 우선순위를 두고 있다고 지적했습니다. 그는 “소프트웨어 스택의 성숙도가 중요하며, 클라이언트는 벤더가 특정 지표에 대해 치중하여 최적화한 벤치마크에 대해 때로는 회의적”이라고 말했습니다. 그는 MLPerf 결과를 기업들이 추가적인 시간 투자에 앞서 초기 필터로 활용하는 것이 가치 있다고 언급했습니다.
앞으로 Intel은 2024년 Gaudi 3 AI 가속기를 도입할 계획입니다. Gaudi 3는 5나노미터 공정으로 제작되어 Gaudi 2에 비해 처리 성능이 4배, 네트워크 대역폭이 2배 향상될 것으로 기대됩니다. Medina는 “Gaudi 3는 성능의 획기적인 도약을 나타내며, 퍼포먼스 대비 비용과 전력 효율성을 개선합니다,”라고 강조했습니다.
Gaudi 3 외에도 Intel은 고성능 컴퓨팅(HPC)과 AI 가속기 기술을 통합한 차세대 제품을 개발할 계획입니다. 회사는 또한 AI 추론 작업에 있어 CPU 기술의 중요성을 인식하고 있으며, 최근 AI 가속화 기능을 갖춘 5세대 Xeon 프로세서를 발표했습니다. Medina는 “CPU는 여전히 추론 및 미세 조정 작업에서 중요한 역할을 하며, Gaudi 가속기와 함께 사용될 때 높은 밀도의 AI 컴퓨팅 작업에 적합합니다,”라고 결론짓고 다양한 솔루션의 필요성을 강조했습니다.