최근 칭화대학교 연구진의 연구에 따르면, 대규모 언어 모델(LLM)의 계산 및 하드웨어 구성 재편성이 추론 비용을 크게 낮출 수 있는 방법을 제시했습니다. 그들은 "주의 오프로딩(attention offloading)"이라는 기술을 도입하여, 비용 효율적인 GPU를 메모리 집약적인 작업에 활용하고, 고성능 가속기는 계산 집약적 작업에 집중할 수 있도록 합니다. 고급 AI 가속기가 비싸고 부족하며 수요가 높은 상황에서, 주의 오프로딩은 대규모 LLM 배치 시 하드웨어 자원을 최적화할 수 있는 기회를 제공합니다.
두 가지 계산 유형
LLM 추론은 다양한 작업을 포함하며, 이를 전략적으로 조직해야 메모리 및 처리 능력을 최대한 활용할 수 있습니다. 이러한 작업은 주로 계산 집약적(computation-bound)과 메모리 집약적(memory-bound)으로 분류됩니다. 계산 집약적 작업은 A100 및 H100과 같은 빠른 가속기의 이점을 누리는 반면, 메모리 집약적 작업, 특히 새로운 토큰에 의해 촉발되는 자기 주의 메커니즘은 충분한 비디오 RAM(VRAM)을 필요로 합니다. 연구진은 "이 메모리 집약적 작업은 현대 가속기의 강점과 충돌하여 메모리 컨트롤러가 과부하에 걸리는 반면 계산 코어는 유휴 상태가 된다"고 언급했습니다. 이 자원 불균형은 시퀀스 길이가 증가함에 따라, 예를 들어 모델과의 확대된 사용자 프롬프트 또는 대화 중에 더욱 악화됩니다.
혁신적 솔루션: 주의 오프로딩
현재 접근 방식은 일반적으로 고급 가속기의 균일한 아키텍처를 확장하여 추론을 수행하는 데 초점을 맞추고 있습니다. 기업들은 종종 H100 프로세서에 막대한 투자를 하여 추론 능력을 확장하므로 비용이 증가하고 하드웨어 사용이 최적화되지 못합니다. 연구진은 "LLM 생성 단계의 고유한 수요는 효율성을 높이고 비용을 줄이기 위한 이종 아키텍처를 필요로 한다"고 주장합니다. 그들의 연구는 다양한 유형의 가속기가 LLM 추론의 특정 측면에 적합하다는 것을 제안합니다. 예를 들어, 소비자 등급의 GPU는 메모리 집약적 작업에 비용 효율적인 옵션을 제공하여 고급 모델에 비해 달러당 메모리 용량과 대역폭이 세 배 더 많습니다. 그러나 이러한 저렴한 옵션에만 의존하는 것은 제한된 계산 능력 때문에 비효율적일 수 있습니다. 주의 계산은 고도로 병렬화할 수 있어 여러 예산 친화적이고 메모리 효율적인 GPU에 분산될 수 있습니다.
이종 아키텍처 구현
주의 오프로딩 기술은 두 개의 명확한 가속기 풀을 생성하는 것을 포함합니다: 하나는 계산 능력에 집중하고, 다른 하나는 메모리 대역폭을 최적화합니다. 이 방식으로, 주의 작업은 저렴한 GPU가 처리하고, 고급 가속기는 다른 작업을 관리합니다. 연구진은 "이 이종 아키텍처는 조화롭게 결합된 계산 능력, 메모리 용량 및 대역폭을 통해 LLM 추론을 효율적으로 향상시킨다"고 설명합니다. 이 하드웨어 강점과 운영 요건의 전략적 정렬은 기업들이 메모리 및 계산 최적화된 가속기의 균형 잡힌 혼합에 투자함으로써 예산을 극대화할 수 있게 합니다.
아키텍처 문제 해결
이 연구는 이 이종 아키텍처와 관련된 문제, 특히 두 개의 가속기 풀을 연결하는 데 필요한 대역폭을 평가합니다. 연구 결과는 PCIe 4.0과 같은 표준 시스템 버스가 충분할 뿐만 아니라, 이미 AI 데이터 센터에서 일반적으로 사용되는 200Gb Infiniband 및 Ethernet과 같은 네트워킹 기술도 적합하다는 것을 나타냅니다. 고급 스케줄링 및 파이프라이닝 기법을 활용하면 비균일 아키텍처로 인해 발생하는 지연을 줄일 수 있으며, 메모리와 계산 자원이 동시작동하도록 보장합니다.
라미나 소개
연구진은 주의 오프로딩을 활용하여 분산 이종 LLM 추론 시스템인 라미나를 개발했습니다. 라미나는 소비자 GPU를 사용하여 계산된 주의 값("KV 캐시")을 저장하고 주의 작업을 수행하며, 고급 가속기는 모델 매개변수 및 기타 추론 작업을 관리합니다. 이러한 장치는 동일한 물리적 머신 내에서 작동할 수 있으며, 여러 노드에 분산될 수 있습니다. KV 캐시 저장소와 주의 계산을 메모리 효율적인 GPU로 오프로딩하여 라미나는 vLLM, 널리 사용되는 LLM 서비스 플랫폼이 관리하는 배치보다 10.7배에서 64배 더 큰 배치를 처리할 수 있습니다. 이 효율성은 대규모 LLM 배치에서 비싼 계산 최적화된 가속기를 최적으로 활용하는 데 중요합니다. 실험 결과, 라미나는 13B 및 33B 모델에 대해 기존 솔루션보다 비용 대비 1.48배에서 12.1배 더 높은 처리량을 달성했습니다.
LLM이 대중화됨에 따라 기업들은 비용 효율적인 추론과 가속기에 대한 자본 지출을 줄이기 위한 혁신적인 전략이 필요하며, 이러한 목표는 주의 오프로딩을 통해 성공적으로 달성됩니다. 연구진은 아직 라미나의 코드를 공개하지 않았지만, 기본 개념이 명확히 정리되어 있어 오픈 소스 커뮤니티의 즉각적인 구현을 유도할 가능성이 높습니다.