大语言模型(LLMs)的区域可访问性可以显著提升竞争优势——更快的访问速度有助于加速创新。反之,那些需要等待的人可能会面临落后的风险。
然而,AI发展的快速步伐常常迫使组织推迟采用新技术,直到所需模型能在其技术栈中可用。这种延迟通常源于资源限制、西方中心偏见和多语言挑战。
为应对这一紧迫问题,Snowflake宣布其Cortex AI现已提供跨区域推理的功能。通过简单的配置,开发者可以在不同地区处理请求,即使特定模型在本地不可用。这使得新LLMs在可用时能够无缝集成。
组织可以安全利用美国、欧盟和亚太及日本(APJ)地区的LLMs,而无需承担额外的出口费用。“Cortex AI的跨区域推理允许您无缝集成所选的LLM,无论其是否在本地区可用,”Snowflake的AI产品营销负责人Arun Agarwal表示。
启用跨区域推理
为了实现数据传输,跨区域功能需要手动启用,默认设置为禁用。开发者必须为推理指定区域。如果两个区域都在亚马逊云服务(AWS)下,数据将通过AWS的全球网络安全传输,受益于自动的物理层加密。如果涉及不同的云服务提供商,流量将通过公共互联网使用加密的互传传输安全性(MTLS)。值得注意的是,输入、输出和服务生成的提示不会被存储或缓存;推理处理仅在跨区域环境中进行。
为了在Snowflake框架内安全生成响应,用户必须先设置账户级别的参数,定义推理的执行地点。Cortex AI将在请求的LLM在源区域不可用时,自动识别一个合适的处理区域。
例如,如果用户将参数设置为“AWSUS”,推理可以在美国东部或西部区域进行。或者,设置为“AWSEU”则可将请求路由到中欧或亚太东北。目前,仅可在AWS内配置目标区域;如果在Azure或Google Cloud启用跨区域,请求仍需通过AWS处理。
Agarwal用Snowflake Arctic的场景来说明这一点。如果模型在源区域(AWS美国东部)不可用,跨区域推理将请求路由到AWS美国西部2,并将响应返回至原始区域。“这一切仅需用一行代码实现,”Agarwal说道。
用户仅需为源区域内消耗的LLM使用支付费用,而非跨区域费用。区域间的往返延迟受基础设施和网络条件影响,但Snowflake预计该延迟相较于LLM推理延迟将是微不足道的。