Die regionale Verfügbarkeit großer Sprachmodelle (LLMs) kann den Wettbewerbsvorteil erheblich steigern – ein schnellerer Zugang fördert die Innovation. Im Gegensatz dazu laufen diejenigen, die warten müssen, Gefahr, zurückzufallen.
Der schnelle Fortschritt in der KI-Entwicklung zwingt Organisationen häufig dazu, die Einführung aufzuschieben, bis Modelle in ihren Technologie-Stack integriert sind. Diese Verzögerung ist meist auf Ressourcenengpässe, westlich orientierte Voreingenommenheiten und mehrsprachige Herausforderungen zurückzuführen.
Um dieses dringende Problem zu lösen, hat Snowflake die allgemeine Verfügbarkeit von Regionen übergreifendem Inferenz auf Cortex AI bekanntgegeben. Mit einer einfachen Konfiguration können Entwickler jetzt Anfragen in verschiedenen Regionen bearbeiten, selbst wenn ein bestimmtes Modell lokal nicht verfügbar ist. Dies ermöglicht eine nahtlose Integration neuer LLMs, sobald sie zugänglich sind.
Organisationen können LLMs sicher in den USA, der EU sowie im Asien-Pazifik-Raum und Japan (APJ) nutzen, ohne zusätzliche Ausgaben für Datentransfer zu riskieren.
„Die Regionen übergreifende Inferenz auf Cortex AI ermöglicht es Ihnen, sich nahtlos mit dem LLM Ihrer Wahl zu integrieren, unabhängig von der regionalen Verfügbarkeit“, erklärt Arun Agarwal, Leiter des AI-Produktmarketings bei Snowflake.
Aktivierung der Cross-Region-Inferenz
Die Funktionalität zur Überwindung von Regionen muss für die Datenübertragung aktiviert werden; die Einstellungen sind standardmäßig deaktiviert. Entwickler müssen die Regionen für die Inferenz angeben. Wenn beide Regionen unter Amazon Web Services (AWS) operieren, erfolgt die Datenübertragung sicher über das globale Netzwerk von AWS und profitiert von automatischer physischer Verschlüsselung. Bei unterschiedlichen Cloud-Anbietern wird der Datenverkehr über das öffentliche Internet mit verschlüsselter mutual transport layer security (MTLS) geleitet. Es ist wichtig zu beachten, dass Eingaben, Ausgaben und von den Diensten generierte Aufforderungen nicht gespeichert oder zwischengespeichert werden; die Inferenzverarbeitung findet ausschließlich in der übergreifenden Umgebung statt.
Um Antworten sicher innerhalb des Snowflake-Rahmenwerks zu generieren, müssen die Benutzer zunächst eine kontospezifische Einstellung festlegen, die definiert, wo die Inferenz stattfinden soll. Cortex AI identifiziert dann automatisch eine geeignete Region für die Verarbeitung, wenn ein angefordertes LLM in der Quellregion nicht verfügbar ist.
Wenn beispielsweise ein Benutzer den Parameter auf „AWSUS“ setzt, kann die Inferenz sowohl in der US-Ost- als auch in der US-Westregion stattfinden. Eine Einstellung auf „AWSEU“ ermöglicht die Weiterleitung in die zentrale EU oder Nordost-Asien-Pazifikregion. Derzeit können Zielregionen nur innerhalb von AWS konfiguriert werden; wenn die Regionsübergreifung in Azure oder Google Cloud aktiviert wird, werden die Anfragen dennoch über AWS verarbeitet.
Agarwal veranschaulicht dies mit einem Szenario rund um Snowflake Arctic. Wenn das Modell in der Quellregion (AWS US East) nicht verfügbar ist, leitet die übergreifende Inferenz die Anfrage an AWS US West 2 weiter, und die Antwort wird an die ursprüngliche Region zurückgesendet.
„All das kann mit einer einzigen Zeile Code erledigt werden“, merkt Agarwal an.
Benutzer werden für die in der Quellregion verbrauchten LLM-Einheiten belastet – nicht für die übergreifende Region. Die Latenz zwischen den Regionen wird durch die Infrastruktur- und Netzwerkbedingungen beeinflusst, jedoch erwartet Snowflake, dass diese Latenz im Vergleich zur Latenz der LLM-Inferenz vernachlässigbar sein wird.