Accès limité aux LLMs ? Snowflake dévoile l'inférence inter-régions pour une disponibilité améliorée.

L'accessibilité régionale des grands modèles de langage (LLM) peut considérablement renforcer l'avantage concurrentiel : un accès plus rapide permet une innovation accélérée. À l'inverse, ceux qui doivent attendre risquent de prendre du retard.

Cependant, le rythme rapide du développement de l'IA oblige souvent les organisations à retarder leur adoption jusqu'à ce que les modèles soient disponibles dans leur environnement technologique. Ce retard est généralement dû à des limitations de ressources, à des biais centrés sur l'Occident et à des défis multilingues.

Pour remédier à ce problème urgent, Snowflake a annoncé la disponibilité générale de l'inférence interrégionale sur Cortex AI. Grâce à une simple configuration, les développeurs peuvent désormais traiter des demandes dans différentes régions, même si un modèle spécifique n'est pas disponible localement. Cela permet une intégration fluide de nouveaux LLM dès qu'ils deviennent accessibles.

Les organisations peuvent utiliser en toute sécurité les LLM à travers les États-Unis, l'UE et l'Asie-Pacifique et Japon (APJ) sans encourir de frais d'extraction supplémentaires. « L'inférence interrégionale sur Cortex AI vous permet de vous intégrer facilement au LLM de votre choix, indépendamment de sa disponibilité régionale », déclare Arun Agarwal, responsable du marketing produit AI chez Snowflake.

Activation de l'Inference Interrégionale

La fonctionnalité interrégionale doit être activée pour le transfert de données, les paramètres étant désactivés par défaut. Les développeurs doivent spécifier les régions pour l'inférence. Si les deux régions sont sur Amazon Web Services (AWS), les données passeront en toute sécurité par le réseau mondial d'AWS, bénéficiant d'un chiffrement automatique au niveau physique. Si différents fournisseurs de cloud sont impliqués, le trafic passera par Internet public en utilisant un transport sécurisé de couche (MTLS) crypté. À noter, les entrées, sorties et demandes générées par le service ne sont ni stockées ni mises en cache ; le traitement des inférences se fait uniquement dans l'environnement interrégional.

Pour générer des réponses en toute sécurité dans le cadre de Snowflake, les utilisateurs doivent d'abord définir un paramètre au niveau du compte pour indiquer où se fera l'inférence. Cortex AI identifiera ensuite automatiquement une région adéquate pour le traitement lorsque le LLM demandé n'est pas disponible dans la région source.

Par exemple, si un utilisateur définit un paramètre « AWSUS », l'inférence peut se faire dans les régions Est ou Ouest des États-Unis. Alternativement, en définissant « AWSEU », le routage peut se faire vers l'UE centrale ou le Nord-Est de l'Asie-Pacifique. Actuellement, les régions cibles ne peuvent être configurées qu'au sein d'AWS ; si l'inférence interrégionale est activée sur Azure ou Google Cloud, les demandes seront tout de même traitées par AWS.

Agarwal illustre cela par un scénario impliquant Snowflake Arctic. Si le modèle n'est pas disponible dans la région source (AWS U.S. East), l'inférence interrégionale redirige la demande vers AWS U.S. West 2, avec la réponse retournée à la région d'origine. « Tout cela peut être fait en une seule ligne de code », souligne Agarwal.

Les utilisateurs sont facturés en crédits pour l'utilisation des LLM consommés dans la région source, et non dans la région interrégionale. La latence aller-retour entre les régions est influencée par les infrastructures et les conditions du réseau, mais Snowflake anticipe que cette latence sera négligeable par rapport à celle de l'inférence du LLM.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles