¿Acceso limitado a LLMs? Snowflake presenta la inferencia跨-Regional para una mayor disponibilidad.

La accesibilidad regional de los grandes modelos de lenguaje (LLMs) puede mejorar significativamente la ventaja competitiva: un acceso más rápido permite una innovación más ágil. En cambio, aquellos que deben esperar corren el riesgo de quedarse atrás.

Sin embargo, el rápido desarrollo de la inteligencia artificial a menudo obliga a las organizaciones a posponer la adopción hasta que los modelos estén disponibles en su pila tecnológica. Este retraso suele ser consecuencia de limitaciones de recursos, sesgos centrados en Occidente y desafíos multilingües.

Para abordar este problema urgente, Snowflake ha anunciado la disponibilidad general de la inferencia entre regiones en Cortex AI. Con una configuración sencilla, los desarrolladores ahora pueden procesar solicitudes en diferentes regiones, incluso si un modelo específico no está disponible localmente. Esto permite una integración fluida de nuevos LLMs a medida que se vuelven accesibles.

Las organizaciones pueden utilizar LLMs de forma segura en EE. UU., UE, y Asia-Pacífico y Japón (APJ) sin incurrir en cargos adicionales por salida. “La inferencia entre regiones en Cortex AI permite integrarse sin problemas con el LLM de su elección, independientemente de la disponibilidad regional”, afirma Arun Agarwal, líder de marketing de productos de AI en Snowflake.

Habilitando la Inferencia entre Regiones

Para que la funcionalidad de cruce de regiones esté habilitada, se deben activar las configuraciones de tránsito de datos, que están desactivadas por defecto. Los desarrolladores deben especificar las regiones para la inferencia. Si ambas regiones operan bajo Amazon Web Services (AWS), los datos se trasladarán de forma segura a través de la red global de AWS, beneficiándose de la encriptación automática en la capa física. Si se involucran diferentes proveedores de nube, el tráfico pasará por Internet público utilizando seguridad de transporte mutuo encriptada (MTLS). Es importante destacar que las entradas, salidas y los mensajes generados por el servicio no se almacenan ni se cachean; el procesamiento de inferencia ocurre únicamente en el entorno interregional.

Para generar respuestas de manera segura dentro del marco de Snowflake, los usuarios deben primero establecer un parámetro a nivel de cuenta que defina dónde se llevará a cabo la inferencia. Cortex AI identifica automáticamente una región adecuada para el procesamiento cuando un LLM solicitado no está disponible en la región de origen.

Por ejemplo, si un usuario establece un parámetro en “AWSUS”, la inferencia puede ocurrir en cualquiera de las regiones del este o del oeste de EE. UU. Alternativamente, establecer “AWSEU” permite el enrutamiento a la EU central o Asia-Pacífico Nordeste. Actualmente, las regiones objetivo solo se pueden configurar dentro de AWS; si la inferencia entre regiones está habilitada en Azure o Google Cloud, las solicitudes aún se procesarán a través de AWS.

Agarwal ilustra esto con un escenario que involucra Snowflake Arctic. Si el modelo no está disponible en la región de origen (AWS EE. UU. Este), la inferencia entre regiones dirige la solicitud a AWS EE. UU. Oeste 2, con la respuesta devuelta a la región original. “Todo esto puede hacerse con una sola línea de código”, comenta Agarwal.

Los usuarios son facturados en créditos por el uso de LLM consumido en la región de origen, no en la interregional. La latencia de ida y vuelta entre regiones está influenciada por la infraestructura y las condiciones de la red, pero Snowflake anticipa que esta latencia será insignificante en comparación con la latencia de inferencia de los LLM.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles