大型語言模型(LLM)的區域可存取性可以顯著提升競爭優勢——更快的存取使得創新加速。相反,必須等待的組織則有可能落後。
然而,AI技術的快速發展常常迫使企業推遲採用,直到模型在其技術堆疊中可用。這種延遲通常源自資源限制、西方中心的偏見和多語言挑戰。
為了解決這一緊迫問題,Snowflake 宣布了Cortex AI的跨區推理之全面可用性。透過簡單的配置,開發者可以在不同區域處理請求,即便特定模型在當地並不可用。這使得當新LLM可用時,能夠無縫整合。
企業可以在美國、歐盟及亞太和日本(APJ)安全地使用LLM,而無需承擔額外的數據傳輸費用。Snowflake的AI產品營銷負責人Arun Agarwal表示:“Cortex AI的跨區推理讓您能夠與選擇的LLM無縫整合,不受區域可用性的限制。”
啟用跨區推理
需為數據穿越啟用跨區功能,默認為禁用狀態。開發者必須指定推理的區域。如果兩個區域都運行於亞馬遜網絡服務(AWS),數據將透過AWS的全球網絡安全傳輸,並自動享受物理層加密的保護。若涉及不同的雲供應商,流量將通過公網使用加密的雙向傳輸層安全(MTLS)。值得注意的是,輸入、輸出和服務生成的提示不會被存儲或快取;推理處理僅在跨區域環境中進行。
為了在Snowflake的架構內安全生成回應,使用者必須首先設置帳戶級參數以定義推理進行的地點。當請求的LLM在源區域不可用時,Cortex AI會自動識別適當的處理區域。例如,如果使用者將參數設置為“AWSUS”,則推理可以發生在美國東部或西部。相對地,設置“AWSEU”則可將請求路由至中部歐盟或亞太東北地區。目前,目標區域僅能在AWS中配置;如果在Azure或Google Cloud啟用跨區,請求仍會通過AWS處理。
Agarwal以一個涉及Snowflake Arctic的情景來說明。如果模型在源區域(AWS美國東部)不可用,跨區推理則將請求路由至AWS美國西部2,回應會被返還至原始區域。
“這一切只需一行代碼就可完成,”Agarwal指出。
用戶將根據源區域消耗的LLM使用量計費,而非跨區。區域之間的回程延遲受基礎設施和網絡條件影響,但Snowflake預期這一延遲相較於LLM推理延遲將微不足道。