探索無伺服器基礎架構下的人工智慧成本與效益
運行人工智慧應用程式會產生各種成本,其中GPU推理的費用是最關鍵的開支之一。傳統上,負責人工智慧推理的組織依賴於持續運行的雲端實例或本地硬體。然而,Google Cloud 現在正在預覽一項創新解決方案,這可能改變人工智慧應用的部署方式:將Nvidia L4 GPU與其Cloud Run無伺服器服務整合,讓組織能夠進行無伺服器推理。
運用無伺服器推理的優勢
無伺服器架構的主要優點是成本效益;服務僅在需要時運行,使用者只需為實際使用付費。與傳統雲端實例持續運行不同,無伺服器GPU僅在特定請求期間啟動。
無伺服器推理可以利用Nvidia NIM和多種框架,包括VLLM、PyTorch和Ollama。目前Nvidia L4 GPU的支援受到高度期待。
“隨著客戶日益採用人工智慧,他們希望在熟悉的平台上部署AI工作負載,”Google Cloud Serverless產品經理Sagar Randive表示。“Cloud Run的高效率和靈活性至關重要,使用者早已要求GPU支援。”
轉向無伺服器人工智慧環境
Google的Cloud Run是一個完全管理的無伺服器平台,因其便於容器部署和管理而受到開發者歡迎。隨著AI工作負載的增長,特別是需要實時處理的負載,對增強計算資源的需求變得顯而易見。
新增的GPU支援為Cloud Run開發者帶來了各種可能性,例如:
- 使用輕量級模型(如Gemma 2B/7B或Llama 3 (8B))進行實時推理,支持響應式聊天機器人和動態文件摘要工具的開發。
- 自定義微調的生成式AI模型,使特定品牌的圖像生成應用更加可擴展。
- 加速計算密集型任務,包括圖像識別、影片轉檔和3D渲染,當閒置時可完全降至零。
無伺服器人工智慧推理的性能考量
無伺服器架構的一個常見關切是性能,尤其是冷啟動。Google Cloud通過提供出色的指標來解決這些問題:對於Gemma 2B、Gemma 2 9B、Llama 2 7B/13B和Llama 3.1 8B等多個模型的冷啟動時間,範圍為11到35秒。
每個Cloud Run實例可配備一個Nvidia L4 GPU,提供多達24GB的虛擬記憶體,足以應對大多數AI推理任務。Google Cloud旨在保持模型的通用性,雖然他們建議使用小於130億參數的模型以獲得最佳性能。
無伺服器人工智慧推理的成本效益
無伺服器模型的一大優勢是其更佳的硬體利用潛力,這可轉化為成本節省。然而,無伺服器AI推理是否比傳統長期運行的伺服器更便宜,則取決於特定應用和預期的流量模式。
“這是非常細緻的,”Randive解釋道。“我們將更新我們的價格計算器,以反映Cloud Run的新GPU定價,讓客戶能夠比較不同平台的總運營成本。”
通過適應這一新興的無伺服器政策,組織可以優化其人工智慧部署策略,同時有效管理成本。