생성형 AI 모델의 성능을 측정하는 단일 지표는 없지만, 중요한 척도 중 하나는 초당 처리되는 토큰 수입니다. 오늘 삼성노바 시스템즈는 Llama 3 8B 파라미터 지침 모델에서 초당 1,000 토큰이라는 놀라운 성과를 달성했다고 발표했습니다. Llama 3의 이전 가장 빠른 벤치마크는 Groq의 800 토큰이었습니다. 이 새로운 이정표는 테스트 기업인 Artificial Analysis에 의해 독립적으로 검증되었습니다. 처리 속도의 향상은 기업에 중요한 의미를 가지며, 더 빠른 응답 시간, 최적화된 하드웨어 사용, 운영 비용 절감으로 이어질 수 있습니다.
AI 성능 향상을 위한 경쟁
Artificial Analysis의 공동 창립자인 George Cameron은 "우리는 AI 칩 경쟁이 예상 이상으로 가속화되는 것을 목격하고 있습니다. 실제 성능에 초점을 맞춘 독립 벤치마크로 삼성노바의 주장을 검증하게 되어 기쁩니다."라고 말했습니다. "AI 개발자들은 이제 속도에 민감한 애플리케이션, 즉 최소한의 응답 시간과 효율적인 문서 처리를 요구하는 AI 에이전트 및 소비자 AI 솔루션을 위한 더 다양한 하드웨어 옵션을 갖추게 되었습니다."
삼성노바의 Llama 3 및 생성형 AI 가속화
삼성노바는 하드웨어와 소프트웨어 기능을 갖춘 기업 중심 생성형 AI 솔루션 개발에 전념하고 있습니다. 하드웨어 측면에서, 독특한 AI 칩인 재구성 가능한 데이터 흐름 장치(RDU)를 설계했습니다. Nvidia의 AI 가속기와 유사하게, RDU는 훈련과 추론 능력이 뛰어나며, 특히 기업 워크로드 및 모델 미세 조정을 강화합니다. 최신 모델인 SN40L은 2023년 9월에 공개되었습니다.
삼성노바는 또한 Samba-1 모델을 포함한 독점 소프트웨어 스택을 제공합니다. 이 모델은 1조 개의 파라미터로 구성되어 있으며, Samba-CoE(전문가의 조합)로 불립니다. 이를 통해 기업은 여러 모델을 개별적으로 또는 조합하여, 데이터 요구에 맞게 사용자 지정할 수 있습니다.
초당 1,000 토큰 속도는 삼성노바의 Samba-1 Turbo 모델을 사용하여 달성했습니다. 이는 테스트용으로 제공된 API 버전입니다. 회사는 이러한 속도 향상을 곧 주요 기업 모델에 통합할 계획입니다. 그러나 Cameron은 Groq의 800 토큰 초당 측정치는 공개 API 엔드포인트를 기준으로 한 반면, 삼성노바의 결과는 전용 프라이빗 엔드포인트에서 나온 것이라 직접 비교가 간단하지 않다고 언급했습니다.
"그럼에도 불구하고, 이 속도는 우리가 벤치마크한 다른 API 제공업체의 중간 출력보다 8배 이상 빠르며, 일반적인 Nvidia H100의 출력 속도보다 여러 배 빠릅니다."라고 Cameron은 말했습니다.
재구성 가능한 데이터 흐름을 통한 성능 향상
삼성노바의 성능은 RDU 기술의 중심이 되는 재구성 가능한 데이터 흐름 아키텍처에 의해 좌우됩니다. 이 아키텍처는 컴파일러 매핑을 통해 신경망의 레이어와 커널 간의 최적화된 리소스 할당을 가능하게 합니다.
Rodrigo Liang 삼성노바 CEO는 "데이터 흐름을 통해 모델 매핑을 지속적으로 개선할 수 있습니다. 이것은 완전히 재구성이 가능하기 때문입니다."라고 말했습니다. "이는 점진적인 이익을 넘어서 효율성과 성능의 상당한 향상으로 이어집니다."
Llama 3가 출시되었을 때, Liang의 팀은 Samba-1에서 초당 330 토큰의 성능을 달성했습니다. 최근 몇 달 간의 광범위한 최적화를 통해 이 속도는 현재 1,000 토큰으로 세 배 증가했습니다. Liang은 최적화가 병목 현상을 방지하고 신경망 파이프라인 내 전반적인 처리량을 극대화하기 위해 커널 간 리소스를 분배하는 것을 포함한다고 설명했습니다. 이는 기업들이 미세 조정 과정에서 도움이 될 수 있도록 삼성노바의 소프트웨어 스택에서 취한 접근 방식과 유사합니다.
기업 품질과 더 높은 속도
Liang은 삼성노바가 16비트 정밀도를 사용하여 이 속도 기준을 달성했다고 강조했습니다. 이는 기업이 요구하는 품질을 보장합니다. 그는 "우리는 고객을 위해 지속적으로 16비트 정밀도를 사용해왔으며, 이는 품질과 결과의 환각을 최소화하는 것을 우선시합니다."라고 말했습니다.
기업 사용자에게 속도의 중요성은 AI 에이전트 기반 워크플로우를 점점 더 많이 도입함에 따라 더욱 커지고 있습니다. 더 빠른 생성 시간은 경제적 이점도 제공합니다.
"응답을 더 빨리 생성할수록 다른 사람들이 사용할 수 있는 자원을 더 많이 확보할 수 있습니다."라고 그는 덧붙였습니다. "궁극적으로 이는 보다 컴팩트한 인프라와 비용 절감으로 이어집니다."