您已自豪地將您的服務定位為「人工智慧驅動」,透過整合大型語言模型(LLMs)。您的網站首頁展示了這些人工智慧解決方案的轉型影響,並透過互動演示和案例研究標誌著您進入全球生成式人工智慧的領域。您的小型但專注的用戶群對增強的客戶體驗表示讚賞,並且成長機會正逐步浮現。然而,在這個月份的第三週,您收到來自 OpenAI 的一封意外電子郵件:
“一週前,您還在與客戶交談,評估產品市場契合度,突然間,您的網站流量激增,導致您的人工智慧服務崩潰。”
這次流量激增不僅讓現有用戶感到沮喪,還阻止了新用戶的加入。雖然迅速提高使用限制可以是一個解決方案,但這讓您對依賴單一供應商及對人工智慧成本失去控制的想法感到不安。您思考著:「我應該自我托管嗎?」
幸運的是,在 Hugging Face 等平台上有開放源碼的 LLMs 可供使用,自我托管成為一個選項。然而,許多主流模型擁有數十億的參數,需要大量資源來擴展,特別是在低延遲應用方面。儘管您對團隊建立必要基礎設施的能力充滿信心,但轉型過程中的潛在成本卻讓人畏懼:
- 微調成本
- 托管開支
- 服務成本
因此,迫切的問題是:應該增加使用限制還是尋求自我托管?
評估 LLaMA 2
請花一些時間思考,這是一個重大的決定。與您的機器學習工程師洽談後,您發現 LLaMA 2 是一款開放源碼的 LLM,與您目前使用的 GPT-3 相當。它有三種尺寸:70 億、130 億和700 億參數。您選擇了最大的版本以保持競爭力。LLaMA 2 採用 bfloat16 格式訓練,每個參數需要 2 個 byte,因此總模型大小為 140 GB。擔心微調這樣大小的模型複雜嗎?不用擔心。透過 LoRA,您只需微調大約 0.1% 的參數——約 7000 萬個,僅消耗 0.14 GB。
為了在微調過程中管理內存佔用(包括反向傳播和數據存儲),目標是保持約五倍於可訓練參數的內存:
- 固定的 LLaMA 2 模型權重:140 GB(無內存佔用)
- LoRA 微調權重:0.14 GB * 5 = 0.7 GB
這樣的總計約為 141 GB。
如果您缺乏訓練基礎設施,可以考慮使用 AWS。按需定價平均約為每小時 $2.80,微調的每日總成本約為 $67——這是一個可承受的費用,特別是因為微調不會花太長時間。
了解服務成本
在部署時,您必須在內存中維持兩組權重:
- 模型權重:140 GB
- LoRA 微調權重:0.14 GB
總計約為 140.14 GB。您可能會跳過梯度計算,但明智的做法是保持約 1.5 倍的內存以應對不可預見的佔用(約 210 GB)。在 AWS 上,GPU 計算每小時約 $3.70,或每日約 $90,月支出約為 $2,700。此外,請計劃應急措施。為了防止服務中斷,考慮維持冗餘模型,這將使成本增加至每日約 $180 或每月 $5,400——這幾乎與您目前的 OpenAI 開支持平。
分析成本盈虧平衡點
繼續使用 OpenAI 將產生相當於微調 LLaMA 2 成本的每日處理能力:微調 GPT 3.5 Turbo 的成本為每 1K 令牌 $0.008。假設每個單詞兩個令牌,為了抵消開源模型的微調費用($67/日),您需要每日處理約 415 萬個單詞——大約 14,000 頁的數據。對於大多數組織來說,這樣的數量可能無法收集,因此利用 OpenAI 進行微調通常更為經濟。
總結:擁有權的價值何在?
自我托管人工智慧最初看似誘人,但隱藏成本讓人警惕。雖然第三方提供商緩解了管理 LLM 的許多挑戰,但他們也帶來了自己的優勢,特別是對於專注於服務而非以人工智慧為中心的應用來說。對於大型企業來說,年擁有成本 $65,000 可能看似可控,但對於大多數企業來說,這是一個相當可觀的數字。不要忽視人才和維護的附加費用,這可能使總成本達到每年 $200,000-250,000 或更多。
擁有模型雖然賦予了對數據和使用的控制,但您必須超過每日約 2220 萬個用戶請求,並具備管理這些需求所需的後勤資源。對於許多使用案例而言,自我托管與使用 API 的財務利益尚不清晰。