인텔은 차세대 AI 처리 칩인 가우디 3 AI 가속기를 발표했습니다. 이 칩은 AI 개발을 촉진하고 워크플로우를 간소화하며 기업 작업 부하를 가속화하도록 설계되었습니다. 가우디 3는 이전 모델의 아키텍처를 유지하면서 성능을 크게 개선하여 컴퓨팅 성능은 4배, 네트워크 대역폭은 2배, 고대역폭 메모리(HBM) 용량은 1.5배 향상되었습니다. 이를 통해 대형 언어 모델(LLM)의 증가하는 수요를 원활하게 처리할 수 있습니다.
가우디 3는 본래 그래픽 처리 장치(GPU) 기술에 뿌리를 두고 있으며, 병렬 처리 기능과 다중 타일 아키텍처 덕분에 AI 가속기로서 아주 적합합니다. 이번 출시는 인텔이 AI 가속기 시장에서 엔비디아와 AMD와 경쟁하기 위한 전략의 일환입니다.
인텔 CEO 패트릭 겔싱어는 AI Everywhere 이벤트에서 가우디 3를 미리 공개하며, 칩이 오늘 공식 출시되지만 일반 공급은 2024년 3분기로 예정되어 있으며 일부 고객은 이미 샘플을 받았다고 발표했습니다. 인텔 데이터 센터 AI 솔루션 부사장 제니 바로비안은 "생성적 AI는 컴퓨팅의 기본적인 변화를 대표합니다."라며 가우디 3가 미래 AI 시스템 구축에 필요한 성능, 확장성, 효율성을 제공할 것이라고 강조했습니다.
인텔 가우디 3: 사양 및 성능
인텔 하바나 랩스 COO 에이탄 메디나는 가우디 3가 64개의 텐서 프로세서 코어(5세대), 8개의 매트릭스 수학 엔진, 128GB의 HBM 용량과 3.7TB/s 대역폭, 그리고 24개의 200 GbE RoCE 이더넷 포트를 갖춘 이종 컴퓨터 아키텍처를 특징으로 한다고 설명했습니다. 가우디 3로 솔루션을 구축하는 것은 가우디 2와 마찬가지로 간단하며, 인텔은 각 가속기당 네트워크 대역폭을 두 배로 늘려 인퍼런스, 미세 조정 또는 교육 등 워크로드에 맞춘 광범위한 클러스터 구성을 가능하게 합니다.
엔비디아 GPU와 비교
엔비디아의 H100과 비교했을 때 가우디 3는 대형 언어 모델 학습 작업에서 최대 1.7배 더 빠를 것으로 예상됩니다. Llama-7B 및 Falcon 180B 모델을 사용한 인퍼런스 테스트에서는 가우디 3가 H100보다 1.5배, 최신 H200보다 1.3배 빠른 성능을 보입니다. 특히, 가우디 3는 인퍼런스 작업에서 H100보다 전력 효율이 최대 2.3배 높습니다.
폭넓은 제품 라인업
인텔은 가우디 3 칩 외에도 세 가지 보완 제품을 출시합니다:
1. 가우디 3 AI 가속기 카드(HL-325L): OAM 호환으로 1,835 TFLOPs, 128GB HBM2e 지원.
2. 유니버설 베이스보드(HLB-325): 14.6 PFLOPS, 1TB 이상의 HBM2e 지원.
3. PCI 익스프레스 추가 카드: 이중 슬롯, 수동 냉각 디자인으로 동급 성능 제공합니다.
기업 내 AI의 미래
인텔의 가우디 3는 기업 차원의 문제를 해결하며, 네트워크 및 엣지 그룹의 수석 VP 사친 카티는 우리는 복잡한 워크플로우를 자율적으로 처리할 수 있는 AI 에이전트의 시대에 접어들고 있다고 주장했습니다. AI의 다음 단계에서는 이러한 에이전트가 독점 데이터를 활용해 산업 전반에 걸쳐 큰 변화를 가져올 것입니다. 카티는 비정형 독점 데이터를 AI 시스템에 통합하는 것이 어렵다고 강조하며, 모듈화되고 안전한 생태계에서 기업이 다양한 AI 솔루션을 선택할 수 있도록 하는 것을 지지합니다.
인텔은 가우디의 향상된 기능을 활용해 고객들이 엔비디아 생태계에서 이탈하도록 유도하고자 하며, AI 비용이 증가하는 상황에서 대안으로 자리매김하고 있습니다. AI 칩 시장이 크게 성장할 것으로 예상되면서 인텔은 개방적이고 협력적인 AI 솔루션 접근 방식을 강조하며 입지를 강화하고 있습니다.
결론
생성적 AI는 컴퓨팅의 전환점을 맞이하고 있으며, 인텔의 가우디 3는 기업 AI 배포를 혁신할 성능과 효율성을 제공합니다. 개방형 표준과 시스템 호환성에 대한 인텔의 약속은 변화하는 AI 환경을 지원하고자 하는 의지를 보여주며, AI의 힘을 활용하고자 하는 다양한 기업의 요구를 충족할 것이라고 약속합니다.