서비스를 “AI 기반”으로 자랑스럽게 포지셔닝한 당신의 웹사이트는 대규모 언어 모델(LLM)의 통합으로 변화를 가져온 AI 솔루션의 영향력을 인터랙티브 데모와 사례 연구를 통해 소개하고 있습니다. 이는 글로벌 생성 AI 시장에 진입한 이정표가 되었습니다.
작지만 헌신적인 사용자 기반은 향상된 고객 경험에 감사하며, 성장 기회가 생겨나고 있습니다. 그러나 한 달이 시작된 지 불과 세 주 만에 OpenAI로부터 예상치 못한 이메일이 도착합니다.
일주일 전, 고객과 대화를 나누며 제품 시장 적합성을 평가하던 중, 갑자기 웹사이트 트래픽이 급증해 AI 서비스를 마비시켰습니다. 이로 인해 기존 사용자들은 불편을 겪고, 신규 사용자들은 접근을 주저하게 됩니다. 사용 한도를 늘리는 간단한 해결책이 있을 수 있지만, 단일 공급자에 의존하고 AI 비용을 통제할 수 없다는 불안감이 남습니다.
"자체 호스팅을 해야 할까?"
다행히도 Hugging Face와 같은 플랫폼에서 오픈소스 LLM이 readily available하게 제공되고 있습니다. 하지만 주요 모델은 수십억 개의 파라미터를 포함하고 있어, 특히 저지연 애플리케이션을 위한 확장에 상당한 자원이 소요됩니다. 팀의 역량에 자신이 있지만, 이러한 전환에 따른 잠재적 비용은 부담스러울 수 있습니다:
- 파인튜닝 비용
- 호스팅 비용
- 서빙 비용
따라서 중요한 질문이 남습니다: 사용 한도를 늘릴 것인가, 아니면 자체 호스팅을 추진할 것인가?
LLaMA 2 평가
신중하게 결정하세요; 이는 중요한 선택입니다. 머신 러닝 엔지니어들과 상담 후 LLaMA 2를 발견하게 되며, 이는 현재 모델인 GPT-3와 비슷한 성능을 발휘하는 오픈소스 LLM입니다. 70억, 130억, 700억 파라미터로 세 가지 크기가 있으며, 경쟁력을 유지하기 위해 가장 큰 모델을 선택합니다.
LLaMA 2는 bfloat16 형식으로 학습되어, 파라미터 당 2바이트가 필요하고, 총 모델 크기는 140GB에 달합니다. 이처럼 큰 모델을 파인튜닝하는 복잡성에 걱정하나요? LoRA를 활용하면 약 0.1%의 파라미터, 즉 약 7000만 개만 조정하면 되므로 0.14GB만 사용합니다.
파인튜닝 동안 메모리 오버헤드를 관리하기 위해 학습 가능한 파라미터의 약 다섯 배의 메모리를 유지하는 것이 좋습니다:
- 고정 LLaMA 2 모델 가중치: 140GB (메모리 오버헤드 없음)
- LoRA 파인튜닝 가중치: 0.14GB * 5 = 0.7GB
따라서 파인튜닝 중 총 크기는 약 141GB가 됩니다.
훈련 인프라가 부족하다면 AWS 사용을 고려하세요. 온디맨드 요금은 시간당 약 $2.80로, 파인튜닝에 하루 약 $67이 소요됩니다—비교적 저렴한 비용이며, 파인튜닝은 오랜 시간이 걸리지 않을 것입니다.
서빙 비용 이해하기
배포 시에는 두 가지 가중치를 메모리에 유지해야 합니다:
- 모델 가중치: 140GB
- LoRA 파인튜닝 가중치: 0.14GB
합계는 약 140.14GB입니다. 그래디언트 계산을 건너뛸 수도 있지만, 예기치 않은 오버헤드를 대비해 약 1.5배의 메모리를 유지하는 것이 현명합니다 (약 210GB).
AWS에서 GPU 컴퓨팅은 시간당 $3.70 또는 하루 약 $90로, 월간 비용은 약 $2,700입니다. 또한 서비스 중단을 방지하기 위해 여분의 모델을 유지하는 것도 고려해야 하며, 이 경우 하루 약 $180 또는 월 약 $5,400의 비용이 발생하며 현재 OpenAI 비용과 유사합니다.
비용 균형점 분석
OpenAI를 계속 이용하는 경우 LLaMA 2의 파인튜닝으로 발생하는 비용과 맞먹는 일일 처리 용량을 예상할 수 있습니다.
GPT 3.5 Turbo의 파인튜닝 비용은 1,000토큰당 $0.008입니다. 단어당 두 토큰을 가정할 경우, 오픈소스 모델의 파인튜닝 비용 ($67/일)을 맞추기 위해서는 하루 약 415만 단어, 즉 약 14,000 페이지의 데이터를 처리해야 합니다.
이런 양은 대부분의 조직이 수집하기 어려워, 파인튜닝 위해 OpenAI를 사용하는 것이 보통 더 경제적입니다.
결론: 소유하는 것이 가치는 언제인가?
AI를 자체 호스팅하는 것이 처음에는 매력적으로 보일 수 있지만, 숨겨진 비용에 유의하세요. 서드파티 공급자는 LLM 관리의 여러 문제를 덜어주지만, AI를 중심으로 하는 서비스에는 자체적인 이점이 있습니다.
대기업의 연간 소유 비용 $65,000는 감당할 수 있을 것처럼 보이지만, 대부분의 기업에겐 상당한 금액입니다. 인력과 유지보수에 대한 추가 비용을 간과하지 마세요. 총 비용이 연간 $200,000~$250,000 이상으로 불어날 수 있습니다.
모델 소유는 데이터와 사용에 대한 통제권을 부여하지만, 사용 요청에서 하루 약 2220만 단어를 초과해야 하며 이러한 수요를 관리하기 위한 물류 자원도 필요합니다. 많은 경우 API를 사용하는 데 비해 자체 호스팅의 재정적 이점은 불분명합니다.