소형 LLM이 생성형 AI 비용을 크게 절감하는 방법

대규모 언어 모델(LLM)와 같은 생성적 AI의 급증하는 비용이 기술 산업 내에서 우려를 불러일으키고 있습니다. 그러나 소형 모델은 유망한 해결책으로 떠오르고 있습니다. UST의 AI 수석 아키텍트인 아드난 마수드는 최근 인터뷰에서 “GPT-4와 같은 LLM의 등장은 성능에서 눈에 띄는 발전을 보여줬지만, 이러한 개선이 비용 상승을 초래했다”고 언급했습니다. 그는 LLM의 막대한 크기와 수십억 개의 파라미터로 인한 계산 요구가 상당한 전력을 필요로 한다고 지적했습니다. 이는 높은 에너지 소비로 이어져 운영 비용과 환경적 우려를 증가시킵니다.

마수드는 “모델 크기가 GPU 메모리 용량을 자주 초과함에 따라, 전문 하드웨어나 복잡한 모델 병렬 처리에 대한 의존도가 증가하고 있으며, 이는 인프라 비용을 더욱 증가시킨다”고 덧붙였습니다. 그는 소형 언어 모델이 신중하게 조정될 경우 비용을 줄이고 효율성을 높일 수 있다고 강조했습니다. 모델 증류와 양자화와 같은 기술은 이러한 소형 모델을 효과적으로 압축하고 최적화할 수 있습니다. 증류는 더 큰 모델의 출력을 기반으로 소형 모델을 훈련시키는 과정이며, 양자화는 모델의 숫자 가중치의 정밀도를 낮춰 더 작고 빠른 모델을 생성합니다.

소형 모델의 감소된 파라미터 수는 직접적으로 적은 계산 전력 요구로 이어져, 더 빠른 추론과 잠재적으로 단축된 훈련 시간을 가능하게 합니다. 마수드는 “이 작은 풋프린트는 표준 GPU 메모리 내에서 원활하게 통합할 수 있게 하여, 더 비싼 전문 하드웨어 구성이 필요 없게 만든다”고 설명했습니다. 계산 및 메모리 사용의 감소는 에너지 소비를 줄일 뿐만 아니라 운영 비용도 절감합니다. 초기 개념 증명이나 프로토타입을 위한 API 활용은 특히 스케일링 시 더 낮은 토큰 비용 덕분에 기업에 이점을 제공합니다. 하지만 마수드는 더 큰 언어 모델에만 의존하면 애플리케이션의 급속한 성장 시 비용이 기하급수적으로 증가할 수 있다고 경고했습니다.

훈련 시간과 비용을 줄이는 것 외에도, 소형 언어 모델은 클라우드 인프라 비용을 크게 완화할 수 있다고 EY의 아메리카 신기술 리더인 맷 바링턴이 강조했습니다. 예를 들어, 클라우드 플랫폼에서 특정 도메인 모델을 최적화하면 자원 사용량이 감소합니다. 이러한 변화는 기업이 AI 자원을 효과적으로 할당하여 최종 사용자와의 접점을 더욱 가깝게 만드는 데 도움을 줍니다. 바링턴은 “에지 컴퓨팅에서 소형 언어 모델을 채택함으로써 기업들은 비싼 클라우드 자원에 대한 의존도를 줄이고 상당한 비용 절감을 이룰 수 있다”고 강조했습니다.

현재 효율적인 AI 모델들이 이미 배포되고 있는 유망한 사례들이 있습니다. 아드난 마수드에 따르면 최근 모델인 phi-1.5는 GPT-4와 유사한 성능을 보여주고 있으며, 의료 분야를 위한 Med-PaLM 2와 보안 애플리케이션을 위해 설계된 Sec-Palm과 같은 전문 모델도 존재합니다. 또한, Llama 2 70b와 같은 모델은 Google의 PaLM 2보다 가격이 현저히 낮아 기존 모델보다 경제적인 대안으로 떠오르고 있습니다. 특히 메타의 130억 개 파라미터 LLaMA는 여러 벤치마크에서 더 큰 GPT-3를 초월한 성과를 보였습니다.

존스 홉킨스 대학의 BabyLM 챌린지와 같은 이니셔티브는 소형 모델의 효과성을 향상시켜 LLM과 경쟁할 수 있도록 하고 있습니다. 아마존은 특정 데이터 요구에 맞게 조정할 수 있는 이러한 소형 모델을 위한 마켓플레이스를 제공하고 있으며, Anyscale과 MosaicML과 같은 기업들은 700억 개 파라미터의 Llama 2 모델을 저렴한 가격에 판매하고 있어 효과적이고 예산 친화적인 솔루션으로의 전환이 증가하고 있음을 보여줍니다.

대규모 언어 모델의 비용이 계속 상승함에 따라 경제적으로 지속 가능한 대안을 찾는 긴급성이 점점 더 뚜렷해지고 있습니다. 이러한 모델의 훈련은 Nvidia의 H100과 같은 GPU에 대해 상당한 비용이 발생하며, 각 GPU는 3만 달러가 넘을 수 있습니다. Aisera의 CEO인 무두 수다카는 “이러한 GPU에 대한 대기 리스트가 있으며, 일부 벤처 자본가는 이를 통해 스타트업을 유치하기도 한다”고 언급했습니다.

GPU를 확보하더라도 높은 비용을 상쇄하기 위한 실질적인 수익 창출이 필수적이라고 수다카는 지적했습니다. 그는 최근 벤처 자본 회사 Sequoia의 블로그를 언급하며 생성적 AI 시장의 성장을 저해할 수 있는 significant monetization gap이 있음을 강조했습니다. “GPU 확보 이후에도 기업들은 높은 보상 패키지를 가진 데이터 과학자를 모집하는 도전에 직면하게 된다”고 설명했습니다. “뿐만 아니라, LLM의 운영화는 상호 작용 처리, 모델 관리 및 업그레이드, 다양한 보안 문제 해결에 따른 지속적인 요구로 인해 비용이 많이 든다”고 덧붙였습니다.

앞으로 마수드는 세밀하게 조정된 LLM이 대형 모델과 유사한 성능을 가지면서도 비용은 적게 들어갈 것이라고 예상합니다. 오픈 소스 커뮤니티는 LongLoRA와 같은 혁신을 통해 실제적인 문제를 해결하고 있으며, 이는 맥락 윈도우를 크게 확장합니다. 그는 “현재의 추세가 계속된다면, 우리는 곧 오픈 소스 모델과 소형 LLM의 통합을 목격할 수 있을 것이며, 이는 차세대 언어 모델링 생태계의 기초를 형성할 것”이라고 결론지었습니다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles