A acessibilidade regional de grandes modelos de linguagem (LLMs) pode aumentar significativamente a vantagem competitiva — o acesso mais rápido possibilita inovações mais ágeis. Por outro lado, aqueles que precisam esperar correm o risco de ficar para trás.
Contudo, o ritmo acelerado do desenvolvimento de IA frequentemente leva as organizações a postergar a adoção até que os modelos estejam disponíveis em sua pilha tecnológica. Esse atraso é geralmente causado por limitações de recursos, preconceitos ocidentais e desafios multilíngues.
Para enfrentar essa questão premente, a Snowflake anunciou a disponibilidade geral da inferência entre regiões na Cortex AI. Com uma configuração simples, os desenvolvedores agora podem processar solicitações em diferentes regiões, mesmo que um modelo específico não esteja disponível localmente. Isso permite a integração contínua de novos LLMs à medida que se tornam acessíveis.
As organizações podem utilizar LLMs de forma segura nos EUA, na UE e na região Ásia-Pacífico e Japão (APJ), sem incorrer em custos adicionais de egressão. “A inferência entre regiões na Cortex AI permite que você integre perfeitamente o LLM de sua escolha, independentemente da disponibilidade regional,” afirma Arun Agarwal, responsável pelo marketing de produtos de AI na Snowflake.
Habilitando a Inferência entre Regiões
A funcionalidade de inferência entre regiões deve ser habilitada para a travessia de dados, com as configurações desativadas por padrão. Os desenvolvedores devem especificar as regiões para a inferência. Se ambas as regiões operarem sob Amazon Web Services (AWS), os dados serão transmitidos de forma segura pela rede global da AWS, beneficiando-se da criptografia automática de camada física. Se provedores de nuvem diferentes estiverem envolvidos, o tráfego será transmitido pela internet pública usando segurança de transporte criptografada (MTLS). É importante ressaltar que entradas, saídas e comandos gerados pelo serviço não são armazenados nem em cache; o processamento de inferência ocorre exclusivamente no ambiente entre regiões.
Para gerar respostas de forma segura dentro do framework da Snowflake, os usuários devem primeiro definir um parâmetro em nível de conta para indicar onde a inferência ocorrerá. A Cortex AI identifica automaticamente uma região apropriada para processamento quando um LLM solicitado não está disponível na região de origem.
Por exemplo, se um usuário define um parâmetro como “AWSUS,” a inferência pode ocorrer nas regiões Leste ou Oeste dos EUA. Alternativamente, ao definir “AWSEU,” o roteamento é habilitado para a região central da UE ou Nordeste da Ásia-Pacífico. Atualmente, as regiões-alvo podem ser configuradas apenas dentro da AWS; se a inferência entre regiões for habilitada no Azure ou Google Cloud, as solicitações ainda serão processadas pela AWS.
Agarwal ilustra isso com um cenário envolvendo a Snowflake Arctic. Se o modelo não estiver disponível na região de origem (AWS EUA Leste), a inferência entre regiões encaminhará a solicitação para AWS EUA Oeste 2, com a resposta retornando para a região original. “Tudo isso pode ser feito com uma única linha de código,” destaca Agarwal.
Os usuários são cobrados por créditos de uso de LLM consumidos na região de origem — não na região cruzada. A latência de ida e volta entre regiões é influenciada pela infraestrutura e condições de rede, mas a Snowflake antecipa que essa latência será insignificante em comparação com a latência da inferência de LLM.