스타트업 칩 기업 Groq가 최근 트윗을 통해 자사의 시스템이 Meta의 새로 출시된 LLaMA 3 대형 언어 모델을 사용하여 초당 800개 이상의 토큰을 처리하고 있다고 밝혔습니다. LLaMA 3의 성능을 벤치마킹하고 있는 엔지니어 Dan Jakaitis는 “우리는 API를 통해 테스트를 진행했으며, 서비스 속도가 하드웨어 데모에서 보여준 것만큼 빠르지 않다. 이는 소프트웨어 문제일 가능성이 크다. Groq의 더 넓은 채택이 기대된다”고 언급했습니다.
반면, OthersideAI의 공동 창립자이자 CEO인 Matt Shumer와 다른 주요 사용자들은 Groq의 시스템이 LLaMA 3로 초당 800개 이상의 토큰을 처리한다고 보고했습니다. 만약 이 성능이 검증된다면, 기존 클라우드 AI 서비스보다 크게 우월한 성능을 보여줄 것입니다. 초기 테스트 결과 Shumer의 주장이 신뢰할 만하다는 것을 나타냅니다.
AI 최적화된 혁신적 프로세서 아키텍처
잘 자금 지원받는 실리콘밸리 스타트업 Groq는 딥러닝에 필수적인 행렬 곱셈 작업을 위해 설계된 독특한 프로세서 아키텍처를 선도하고 있습니다. Groq의 텐서 스트리밍 프로세서는 전통적인 CPU 및 GPU의 캐시와 복잡한 제어 논리를 피하고 AI 작업을 위해 맞춤 제작된 간소화된 실행 모델을 선호합니다.
Groq는 일반 용도 프로세서에서 흔히 발생하는 오버헤드와 메모리 병목 현상을 최소화하여 AI 추론에 있어 우수한 성능과 효율성을 제공할 수 있다고 주장합니다. 초당 800개 토큰이라는 인상적인 결과가 입증된다면, 이 주장은 더욱 확고해질 것입니다.
Groq의 아키텍처는 Nvidia 및 기타 기존 칩 제조업체와 크게 다릅니다. Groq는 AI를 위해 범용 칩을 수정하는 대신, 딥러닝의 계산 요구를 향상시키기 위해 텐서 스트리밍 프로세서를 특별히 설계했습니다. 이 혁신적인 접근 방식은 불필요한 회로를 제거하고 AI 추론의 반복적이고 병렬izable 작업을 위한 데이터 흐름을 최적화할 수 있습니다. 그 결과로, 대규모 신경 네트워크 운용과 관련된 지연 시간, 전력 소비 및 비용이 현저히 감소합니다.
빠르고 효율적인 AI 추론의 필요성
초당 800개 토큰에 해당하는 1분당 약 48,000개의 토큰은 단 1초 만에 약 500단어의 텍스트를 생성할 수 있는 속도입니다. 이 속도는 현재 클라우드의 대형 언어 모델이 보통 GPUs에서 처리하는 추론 속도의 거의 10배에 해당합니다.
매우 큰 언어 모델의 파라미터 수가 수십억 개에 이르면서, 빠르고 효율적인 AI 추론에 대한 수요는 더욱 중요해지고 있습니다. 이러한 대규모 모델을 훈련시키는 것은 계산 집약적이지만, 비용 효율적으로 배포하기 위해서는 과도한 전력을 사용하지 않고 빠르게 처리할 수 있는 하드웨어가 필요합니다. 이는 챗봇, 가상 비서 및 인터랙티브 플랫폼과 같은 대기 시간에 민감한 응용 프로그램에 매우 중요합니다.
AI 추론의 에너지 효율성은 기술이 확대됨에 따라 더욱 주목받고 있습니다. 데이터 센터는 이미 상당한 에너지를 소비하고 있으며, 대규모 AI의 높은 계산 요구는 이 문제를 악화시킬 수 있습니다. 에너지 소비를 줄이면서 높은 성능을 유지하는 하드웨어는 AI를 지속 가능하게 만들기 위해 필수적이며, Groq의 텐서 스트리밍 프로세서는 이러한 효율성 문제를 해결하기 위해 설계되었습니다.
Nvidia의 지배 도전하기
현재 Nvidia는 A100 및 H100 GPU를 통해 AI 프로세서 시장을 주도하며 대다수의 클라우드 AI 서비스를 지원합니다. 그러나 Groq, Cerebras, SambaNova 및 Graphcore와 같은 새로운 스타트업들이 AI에 특별히 설계된 혁신적인 아키텍처를 내놓고 있습니다.
이 도전자들 중에서 Groq는 추론과 훈련 모두에 초점을 맞추고 있다는 점에서 특히 목소리를 높이고 있습니다. CEO Jonathan Ross는 2024년 말까지 대부분의 AI 스타트업이 Groq의 저정밀 텐서 스트리밍 프로세서를 추론용으로 채택할 것이라고 확신하고 있습니다.
Meta의 LLaMA 3 출시, 즉 가장 강력한 오픈소스 언어 모델 중 하나라는 평가는 Groq에게 자사 하드웨어의 추론 능력을 시연할 기회를 제공합니다. Groq의 기술이 LLaMA 3를 실행하는 데 있어 주류 대안을 능가할 수 있다면, 이는 스타트업의 주장을 뒷받침하고 시장 채택을 가속화할 것입니다. Groq는 또한 클라우드 서비스와 전략적 파트너십을 통해 자사 칩의 접근성을 높일 새로운 비즈니스 유닛을 설립했습니다.
LLaMA와 Groq의 효율적인 AI 중심 추론 하드웨어의 융합은 보다 많은 비즈니스 및 개발자가 고급 언어 AI에 접근할 수 있도록 할 수 있습니다. 그러나 Nvidia는 여전히 강력한 경쟁자로 남아 있으며, 다른 도전자들도 새로운 기회를 활용할 준비가 되어 있습니다.
AI 모델 개발의 급속한 발전에 발맞추어 인프라 구축 경쟁이 심화됨에 따라, 저렴한 비용으로 근실시간 AI 추론을 실현하는 것은 전자상거래, 교육, 금융 및 의료를 포함한 다양한 분야에 혁신을 가져올 수 있습니다. 한 사용자(X.com)는 이 순간을 간결하게 요약했습니다: “속도 + 저비용 + 품질 = 지금 다른 것을 사용하는 것은 말이 안 된다.” 향후 몇 달간 이 주장에 대한 진실 여부가 가려질 것이며, AI 하드웨어의 환경이 기존 규범에 대한 도전 속에서 진화하고 있다는 것을 보여줄 것입니다.