如何透過較小的LLM顯著降低生成式AI的成本

隨著驅動生成式人工智慧的大型語言模型(LLMs)成本不斷上漲,科技業界引發了相當程度的擔憂。然而,較小的模型提供了令人振奮的解決方案。UST的首席人工智慧架構師Adnan Masood在最近的採訪中表示:「大型語言模型如GPT-4的出現展示了出色的性能進步,但這些進展也導致了成本的激增。」他指出,由於LLMs的龐大規模和數十億的參數,運算需求十分高昂,這造成了大量的能源消耗,進而推高了營運支出並引發環境問題。

Masood補充道:「模型規模經常超過GPU記憶體容量,這使得對專用硬體或複雜模型並行處理的依賴增加,進一步增加了基礎設施成本。」他強調,當小型語言模型經過精細調整後,不僅能降低成本,還能提升效率。模型蒸餾和量化等技術能有效壓縮和優化這些小型模型。蒸餾是指在大型模型的輸出上訓練小型模型,而量化則是通過減少模型數值權重的精確度來創造一個更小且更快的模型。

小型模型的參數數量減少,意味著對運算能力的需求降低,這使得推理速度加快,訓練時間縮短。Masood解釋道:「這種精簡的特徵使得模型能無縫集成於標準GPU記憶體中,實際上消除了對更昂貴專用硬體設置的需求。」運算與記憶體使用的減少不僅降低了能源消耗,還減少了營運成本。利用API來進行早期的概念驗證或在生產工作負載中創建原型,對公司尤其有利,特別是在擴展過程中每個令牌的成本較低。然而,Masood警告說,單純依賴大型語言模型會在應用快速增長時導致成本激增。

除了縮短訓練時間和降低成本外,小型語言模型還能顯著減少雲基礎設施的開支,EY的美洲新興科技領導者Matt Barrington強調。例如,在雲平台上對特定領域模型進行微調,將導致資源使用量降低。這樣的轉變使得公司能更有效地配置其人工智慧資源,著重於能接近終端用戶的領域。他指出:「通過在邊緣運算中採用緊湊語言模型,企業可以減少對昂貴雲資源的依賴,從而實現顯著的成本節省。」

目前已經有數個高效的AI模型正在被部署。Masood表示,近期的phi-1.5模型展現出與大型模型如GPT-4相媲美的性能。此外,專門針對醫療行業設計的Med-PaLM 2,以及針對安全應用的Sec-Palm,也正在開發中。此外,像是Llama 2 70b這樣的模型作為具有成本效益的替代方案,價格遠低於競爭對手如Google的PaLM 2,顯示出明顯的價格降低。值得注意的是,Meta的130億參數LLaMA在若干基準測試中超越了大型的GPT-3。

約翰霍普金斯大學的BabyLM挑戰旨在提升小型模型的效能,使其能夠與LLMs競爭。此外,亞馬遜提供了一個市場,供這些可根據特定數據需求量身定制的緊湊模型。Anyscale和MosaicML等組織也以實惠的價格售賣70億參數的Llama 2,顯示出對有效且經濟實惠解決方案的需求日益增長。

隨著大型語言模型成本的不斷飆升,尋找經濟可行的替代方案的迫切性愈加明顯。這些模型的訓練開支相當可觀,尤其是像Nvidia的H100這樣的GPU,每個的成本可超過3萬美元。Aisera首席執行官Muddu Sudhakar指出:「這些GPU有等待名單,一些風險投資家甚至利用它們來吸引初創企業融資。」

即使獲得了GPU,實現有意義的收益是抵消高成本所必需的,Sudhakar強調。他提到風險投資公司Sequoia最近的一篇博客,突顯出可能會妨礙生成式AI市場成長的重大變現差距。他解釋道:「一旦獲得GPU,公司面臨著招募數據科學家的挑戰,這些職位的薪酬可能非常可觀。此外,由於持續的互動處理需求、模型管理和升級,以及各種安全問題,運行LLMs的成本也相當高。」

展望未來,Masood預見經過精細調整的LLMs將在性能上達到與大型模型相當的水準,但成本卻僅為其一小部分。開源社區已經在解決實際挑戰,如LongLoRA等創新顯著延長了上下文窗口。「如果當前趨勢繼續下去,我們可能會看到開源模型與小型LLMs的結合,形成下一代語言建模生態系統的基礎。」他總結道。

Most people like

Find AI tools in YBX