메타의 고급 대형 언어 모델인 Llama 2의 오픈소스 출시가 개발자와 연구자들 사이에서 큰 호평을 받고 있습니다. 특히 그 접근성 덕분입니다. 이 모델은 Vicuna, Alpaca, 메타의 Llama 2 Long 등 여러 인공지능 시스템 개발에 영감을 주었습니다. 하지만 Llama 2를 운영하는 비용은 일반적으로 독점 모델에 비해 상당히 높습니다. 보고서에 따르면 많은 스타트업들이 Llama 2를 사용할 때 OpenAI의 GPT-3.5 Turbo에 비해 운영 비용이 50%에서 100% 더 높아지고 있으며, 최첨단 GPT-4의 가격은 더욱 비쌉니다. 이 두 강력한 언어 모델은 ChatGPT의 기초가 됩니다.
비용 차이가 경우에 따라 놀라울 수 있습니다. 챗봇 스타트업 Cypher의 창립자들은 지난 8월 Llama 2를 사용한 테스트에서 무려 1,200달러의 비용이 발생했지만, 같은 테스트를 GPT-3.5 Turbo에서 진행했을 때는 단 5달러에 그쳤습니다. 최근 OpenAI는 새로운 경제적인 모델인 GPT-4 Turbo를 출시했는데, 이는 100개 입력 톤당 1센트로, 이전의 8K 버전 GPT-4보다 3배 저렴합니다. DevDay 행사에서 OpenAI는 참석자에게 500달러의 무료 API 크레딧을 제공하여 새로운 모델 탐색을 장려했습니다. Llama 2가 사용자에게 공개 접근을 제공하지만, 이와 같은 운영 비용의 차이가 기업의 채택을 망설이게 만들 수 있습니다.
비용 차이 이해하기
오픈소스 모델과 관련된 높은 비용의 주요 원인은 기업이 사용하는 인프라에 있습니다. OpenAI는 고성능 칩에서 요청을 동시에 처리하기 위해 배치 처리 방식으로 수백만 건의 요청을 효율적으로 처리할 수 있습니다. 반면, Cypher와 같은 스타트업들은 오픈소스 모델을 사용하고 클라우드 제공업체를 통해 전문 서버를 임대하기 때문에 유사한 효율성을 달성하기 위해 필요한 트래픽을 생성하지 못할 수 있습니다. 이러한 차이는 서버의 잠재력을 최대한 활용하는 데 제한을 둡니다.
오픈소스 대형 언어 모델과 관련된 운영 비용은 수행하는 특정 작업, 요청량, 사용자 정의 수준에 따라 크게 변동할 수 있습니다. 요약과 같은 간단한 작업은 비용이 상대적으로 낮고, 더 복잡한 기능은 더 큰 투자를 필요로 할 수 있습니다. AI 및 데이터 분석의 수석 분석가인 브래들리 심민은 OpenAI가 사용하는 비용 관리 전략에 대한 투명성이 부족하다고 지적합니다. 그는 "OpenAI는 AWS나 Azure와 같은 클라우드 플랫폼에서 대규모 모델을 호스팅하려는 소규모 기업이 접근할 수 없는 규모의 경제의 혜택을 받을 가능성이 높다"고 말합니다.
자원 불일치
최근 분석에서 Permutable.ai는 OpenAI 기술 활용에 따른 연간 운영 비용을 약 100만 달러로 추정했으며, 이는 자체 모델을 사용하는 비용의 20배입니다. Permutable.ai의 CEO인 윌슨 찬은 ChatGPT를 소소한 작업에 사용하는 것은 "호두를 깨는 데 망치를 사용하는 것"에 비유하며, 효과적이지만 지나치게 강력하다고 강조합니다. 그는 일상 작업에 대한 중량 모델의 계산 및 재무 자원 투입을 경계하며, AI 모델의 능력을 실제 필요와 맞추는 것이 비용 효율성을 보장하는 데 중요하다고 강조합니다.
비용 구조 탐색
대형 언어 모델의 운영 비용은 모델의 크기에 따라 크게 다릅니다. Llama 2는 여러 구성으로 제공되며, 가장 큰 버전은 700억 개의 매개변수를 자랑합니다. 더 큰 모델은 훈련 및 실행에 상당한 컴퓨팅 파워를 요구하지만, 더 향상된 성능을 제공하는 경향이 있습니다. 아이리스.ai의 CTO이자 공동 설립자인 빅터 보테프는 매개변수를 양자화와 같은 기술을 통해 최적화하여 운영 비용을 줄일 수 있다고 언급합니다. 그러나 이는 응답 품질이 저하될 위험이 있어 사용자의 요구에 따라 신중하게 결정되어야 합니다.
온프레미스 배치를 위한 1000억 개 이하의 매개변수를 가진 모델은 적어도 하나의 DGX 박스가 필요하며, 그 비용은 약 20만 달러입니다. Llama 2를 온프레미스에서 실행하는 연간 하드웨어 비용은 약 6만 5천 달러에 이를 수 있습니다. 클라우드 환경에서는 모델 크기에 따라 운영 비용이 다릅니다. 150억 개 이하의 매개변수를 가진 모델은 월 약 1,000달러, 연간 1만 2천 달러의 비용이 발생하는 반면, 700억 개 매개변수 모델은 월 약 1,500달러, 연간 1만 8천 달러로 올라갑니다.
대부분의 모델은 기본적으로 기업의 품질 기준을 충족하지 않으므로, 다양한 조정 기술이 필요합니다. 프롬프트 튜닝은 가장 저렴한 방법으로 10달러에서 1,000달러 사이의 비용이 들며, 명령 튜닝은 100달러에서 1만 달러의 범위에서 가격이 형성됩니다. 기본 모델 속성을 변경하는 파인 튜닝은 예측할 수 없으며, 작은 모델(10억~50억 개 매개변수)의 경우 평균 약 10만 달러, 더 큰 구성은 수백만 달러에 이를 수 있습니다.
소형 모델로의 전환
이러한 고려 사항을 바탕으로, 특정 응용 프로그램에 적합한 소형 모델의 출현은 유망한 대안이 됩니다. Llama 2의 70억 및 130억 개 매개변수 변형이 이미 제공되고 있으며, 마이크로소프트의 Phi 1.5와 EleutherAI의 Pythia-1b와 같은 혁신적인 모델도 주목받고 있습니다. 하지만 Omdia의 수석 분석가인 리안 제이 수는 오픈소스 모델은 일반적으로 저렴하지 않으며, 특히 사용자 정의나 개선이 수반될 경우 더욱 그렇다고 강조합니다. 또한 모든 OpenAI 모델이 독점적이기 때문에 일부 기업들은 라이선스나 로열티를 공유하는 것을 피하려 하여 모델 비용을 덜 중요하게 여길 수 있습니다.
StrikeReady의 CPO인 아누락 구르투는 스타트업이 모델 비용과 투자 수익 가능성을 균형 있게 고려해야 한다고 강조합니다. “AI 모델은 혁신을 촉진하고 사용자 경험을 향상시키며 운영을 최적화할 수 있습니다. 앞으로 더 효율적인 모델과 비용 효율적인 솔루션의 출현이 스타트업과 개발자들에게 AI 접근성을 높일 것이라 예측합니다.”
컴퓨팅 자원 접근
또 다른 중요한 비용 요인은 하드웨어 접근입니다. 현재 경쟁이 치열한 시장에서 기업들은 AI 기술을 배포하기 위해 강력한 컴퓨팅 자원을 필요로 합니다. 하지만 수요가 공급을 초과했습니다. 시장 선두주자인 Nvidia는 최근 GPU에 대한 상당한 수요를 보고하며, 2분기 동안 큰 물량을 납품했습니다. AMD와 Intel과 같은 경쟁사들이 자사 AI 칩을 준비하면서 신뢰할 수 있는 컴퓨팅 파워에 대한 필요성이 더욱 중요해지고 있습니다.
하드웨어 가용성이 제한적일 경우, 기업은 컴퓨팅 요건을 충족하기 위해 비용이 상승할 수 있습니다. Hugging Face, NexGen Cloud, AWS와 같은 제공업체에서 임대 가능한 GPU가 있지만, Llama 2와 같은 모델의 고강도 요구 사항은 강력한 컴퓨팅 자원을 필요로 합니다. Ashurst의 최고 디지털 책임자 타라 워터스는 공개 모델의 사용량 기반 가격 책정이 일부 스타트업이 잠재 고객이 구매 전에 탐색하고 시험해 볼 수 있도록 하는 것을 저해할 수 있다고 말합니다. 비록 오픈소스 모델이 일부 문제를 완화할 수 있지만, 이러한 모델을 효과적으로 호스팅하고 배포하기 위한 적절한 인프라 필요와 같은 새로운 장애물을 가져옵니다.
환경이 진화함에 따라 AI 모델 소비와 비용을 관리하기 위한 혁신적 전략들이 나타나고 있습니다. 모델을 호스팅하지 않고도 프롬프트 엔지니어링을 탐색하거나 반복적인 쿼리를 위한 자원 할당을 효율적으로 수행하기 위한 중개 솔루션을 개발하는 것은 현재 AI 생태계를 탐색하는 데 필요한 창의성을 보여줍니다.