A Nvidia está aprimorando sua estratégia de co-venda com a Microsoft ao lançar um serviço de fundação de IA, voltado para ajudar empresas e startups a criar aplicações personalizadas de IA na nuvem Azure. Este serviço utilizará dados empresariais por meio de geração aumentada por recuperação (RAG).
"O serviço de fundação de IA da Nvidia integra nossas tecnologias de IA generativa, experiência em treinamento de LLM e amplas capacidades de fábrica de IA, construídas sobre a Microsoft Azure. Isso permite que empresas em todo o mundo conectem seus modelos personalizados com os serviços de nuvem de primeira linha da Microsoft", afirmou Jensen Huang, fundador e CEO da Nvidia.
Principais Recursos do Serviço de Fundação de IA da Nvidia na Azure
Com o serviço de fundação de IA da Nvidia na Azure, as empresas terão todos os componentes necessários para desenvolver aplicações de IA generativa focadas em negócios em um único local. Esta oferta abrangente inclui os modelos de fundação de IA da Nvidia, o framework NeMo e acesso aos recursos de supercomputação Nvidia DGX Cloud.
"Pel primeiro vez, as empresas podem acessar todo o espectro de componentes necessários—desde hardware até software—de forma integrada na Microsoft Azure. Os clientes podem executar todo o fluxo de trabalho de IA generativa com a Nvidia de maneira fluida através da Azure", disse Manuvir Das, VP de computação empresarial da Nvidia.
Para ampliar as opções para as empresas, a Nvidia está introduzindo uma nova linha de modelos Nemotron-3 8B, desenhados para aplicações avançadas de chat e perguntas e respostas em setores como saúde, telecomunicações e finanças. Esses modelos terão capacidades multilíngues e estarão disponíveis através do catálogo de modelos de IA da Azure, assim como no Hugging Face e no catálogo NGC da Nvidia.
Outros modelos fundamentais do catálogo da Nvidia que também se integrarão à Azure incluem Llama 2, Stable Diffusion XL e Mistral 7b. Após a seleção do modelo preferido, os usuários podem prosseguir para as fases de treinamento e implantação de aplicações personalizadas utilizando Nvidia DGX Cloud e software AI Enterprise via marketplace da Azure. O DGX Cloud oferece instâncias escaláveis utilizando até milhares de GPUs NVIDIA Tensor Core para treinamento e vem com um kit de ferramentas de AI Enterprise para simplificar a customização de LLM.
Parceria com a Oracle e Adoção Antecipada
A Nvidia também firmou parceria com a Oracle, permitindo que empresas elegíveis comprem ferramentas no marketplace da Oracle Cloud para treinamento de modelos na Oracle Cloud Infrastructure (OCI). Os primeiros adotantes do serviço de fundação na Azure incluem SAP, Amdocs e Getty Images, que estão desenvolvendo aplicações de IA personalizadas para uma variedade de casos de uso.
Expansão da Parceria Nvidia e Microsoft
Além do serviço de IA generativa, a Microsoft anunciou a introdução de novas máquinas virtuais NC H100 v5 para Azure. Estas instâncias inovadoras de nuvem possuem dual GPUs H100 baseadas em PCIe conectadas via Nvidia NVLink, oferecendo quase quatro petaflops de capacidade de computação em IA e 188GB de memória HBM3 de alta velocidade.
A GPU Nvidia H100 NVL foi projetada para alcançar até 12 vezes melhor desempenho no GPT-3 175B em comparação com modelos anteriores, sendo ideal tanto para inferência quanto para tarefas de treinamento convencional. Além disso, a Nvidia planeja incorporar a nova GPU H200 Tensor Core na Azure no próximo ano, oferecendo 141GB de memória HBM3e e 4,8 TB/s de largura de banda pico de memória, adaptada para cargas de trabalho extensas de IA.
Atualizações para IA em Dispositivos Windows
Para aprimorar as operações de LLM em dispositivos Windows, a Nvidia também revelou várias atualizações, incluindo o TensorRT LLM para Windows, que suportará novos modelos de linguagem de grande escala, como Mistral 7B e Nemotron-3 8B. Prevista para ser lançada ainda este mês, essa atualização promete um desempenho de inferência cinco vezes mais rápido, permitindo uma execução melhor dos modelos em desktops e laptops equipados com GPUs GeForce RTX 30 e 40 Series com um mínimo de 8GB de RAM.
Além disso, o TensorRT-LLM será compatível com a API de Chat da OpenAI através de um novo wrapper, permitindo que diversos projetos de desenvolvedores sejam executados localmente em PCs Windows 11 com RTX, eliminando a dependência de nuvem.