MLCommons, AI 추론을 위한 MLPerf 4.0 출시
MLCommons가 AI 추론을 위한 MLPerf 4.0 벤치마크를 공개하며 소프트웨어와 하드웨어의 급속한 발전을 강조했습니다. 생성 AI가 진화하고 힘을 얻으면서, 공급업체에 중립적인 성능 벤치마킹 프레임워크에 대한 수요가 그 어느 때보다 중요해졌습니다. MLCommons는 이 필요를 충족하며 MLPerf 벤치마크를 통해 학습 및 추론 능력에 대한 귀중한 통찰력을 제공합니다. MLPerf 4.0 추론 결과는 2023년 9월에 발표된 MLPerf 3.1 결과 이후 첫 업데이트입니다.
지난 6개월 동안 AI 발전이 크게 이루어졌고, Nvidia 및 Intel과 같은 주요 하드웨어 회사들이 추론 성능을 최적화하기 위해 자사 제품을 개선했습니다. 새로운 MLPerf 4.0 결과는 Nvidia와 Intel의 기술에서 상당한 개선을 보여줍니다.
특히 MLPerf 추론 벤치마크도 변화가 있었습니다. MLPerf 3.1에서 텍스트 요약을 위해 사용된 GPT-J 6B 파라미터 모델에서, MLPerf 4.0은 질문 응답(Q&A)에 널리 사용되는 Llama 2 70억 파라미터 모델로 초점을 전환했습니다. 또한 MLPerf 4.0은 Stable Diffusion을 기반으로 하는 생성 AI 이미지 생성 벤치마크를 처음으로 도입했습니다.
"MLPerf는 AI의 속도, 효율성 및 정확성을 향상시키기 위한 업계 표준 역할을 합니다,"라고 MLCommons의 창립자이자 전무이사인 David Kanter가 기자 회견 중 밝혔습니다.
AI 벤치마크의 중요성
최신 MLCommons 벤치마크에는 8,500개 이상의 성능 결과가 포함되어 있어 다양한 하드웨어, 소프트웨어 및 AI 추론 사용 사례의 조합을 평가합니다. Kanter는 AI 성능에 대한 의미 있는 지표를 설정하는 것의 중요성을 강조했습니다.
"목표는 AI 능력을 측정할 수 있는 견고한 지표를 만들어 추가 개선을 가능하게 하는 것입니다,"라고 그는 설명했습니다. MLCommons는 다양한 시스템에서 일관된 데이터 세트와 구성을 사용하여 표준화된 테스트를 진행함으로써 산업을 통합하는 것을 목표로 하고 있습니다. 모든 결과는 참가자와 공유되어 투명성과 협력적 개선을 촉진합니다.
궁극적으로 이러한 표준화된 접근 방식은 기업들이 AI 솔루션 선택 시 정보에 기반한 결정을 내릴 수 있도록 합니다. “이는 구매자가 온프레미스, 클라우드 또는 임베디드 시스템을 관련 작업 부하에 따라 평가하는 데 도움을 줍니다,”라고 Kanter는 언급했습니다. “대형 언어 모델 추론을 실행할 시스템을 찾고 있다면, 벤치마크가 선택에 도움을 줄 수 있습니다.”
Nvidia, AI 추론 성능에서 선두주자
Nvidia는 MLPerf 벤치마크에서 뛰어난 결과를 통해 다시 한 번 자사의 우위를 입증했습니다. 새로운 하드웨어가 일반적으로 성능을 향상시키지만, Nvidia는 기존 기술에서의 추론 능력을 효과적으로 개선했습니다. Nvidia의 TensorRT-LLM 오픈 소스 추론 기술을 활용하여, 이 회사는 GPT-J 모델을 사용하는 텍스트 요약에서 H100 Hopper GPU의 추론 성능을 거의 세 배로 향상시켰습니다.
Nvidia의 가속 컴퓨팅 제품 이사인 Dave Salvator는 6개월 만에 달성한 성능 개선에 대해 흥분을 감추지 못했습니다. “Hopper 아키텍처 최적화를 위한 엔지니어링 팀의 노력 덕분에 성능이 크게 향상되었습니다,”라고 그는 말했습니다. 지난주 GTC에서, Nvidia는 Hopper 아키텍처의 후속인 Blackwell GPU를 발표했습니다. Blackwell의 MLPerf 벤치마크 일정은 확인되지 않았지만, Salvator는 조만간 이루어지길 희망하고 있습니다.
Blackwell의 벤치마크 이전에도 MLPerf 4.0 결과에는 Llama 2로 평가했을 때 H100 대비 최대 45% 더 빠른 추론 성능을 자랑하는 새로운 H200 GPU가 특징으로 포함되어 있습니다.
Intel, AI 추론에서 CPU의 중요성 강조
Intel은 MLPerf 4.0 벤치마크에 적극 참여하여 Habana AI 가속기 및 Xeon CPU 기술을 선보였습니다. Gaudi 성능 결과는 Nvidia의 H100보다 뒤처지지만, Intel은 더 나은 가격 대비 성능 비율을 제공한다고 주장합니다. 더 중요한 것은 새로운 5세대 Intel Xeon 프로세서가 추론 작업에 대해 인상적인 성능 향상을 보여줍니다.
기자 회견에서 Intel의 Xeon AI 제품 이사 Ronak Shah는 5세대 Xeon이 이전 세대에 비해 추론에서 1.42배 빠르다고 강조했습니다. 특히, GPT-J LLM 텍스트 요약 작업에서는 5세대 Xeon이 최대 1.9배 빠른 속도를 기록했습니다. “많은 기업들이 일반 목적과 AI 기능을 통합한 솔루션을 필요로 한다는 것을 이해하고 있습니다,”라고 Shah는 말했습니다. “우리의 CPU는 AMX 엔진을 통해 강력한 일반 목적 처리와 고급 AI 성능을 통합하도록 설계되었습니다.”