En diciembre de 2023, Google presentó su "AI Hypercomputer", una arquitectura de supercomputadora pionera que integra hardware optimizado para el rendimiento, software abierto, marcos de aprendizaje automático de vanguardia y modelos de consumo flexibles. Esta iniciativa busca mejorar la eficiencia y productividad en el entrenamiento, ajuste y servicio de inteligencia artificial para los clientes de Google Cloud, compitiendo con Microsoft y Amazon por la cuota de mercado empresarial.
Los clientes de Google Cloud pueden acceder virtualmente a este AI Hypercomputer, lo que les permite entrenar sus propios modelos y aplicaciones de IA. Empresas destacadas como Salesforce y Lightricks ya han aprovechado con éxito el AI Hypercomputer TPU v5p de Google Cloud para entrenar grandes modelos de IA.
En Google Cloud Next 2024, la conferencia anual en Las Vegas, Google presentó actualizaciones significativas para su AI Hypercomputer, destacando el aumento en el número de clientes de alto perfil que utilizan la plataforma.
Mejoras en el Google Cloud AI Hypercomputer
La primera gran mejora es la disponibilidad de la Unidad de Procesamiento Tensorial (TPU) v5p de Google Cloud, su acelerador de IA más potente, escalable y flexible. Además, Google está mejorando su familia de máquinas virtuales A3, introduciendo configuraciones A3 Mega impulsadas por GPUs NVIDIA H100 Tensor Core, que se lanzarán en mayo. Las A3 Mega usarán estas GPUs avanzadas, cada una con 80 mil millones de transistores.
Google también planea integrar las últimas GPUs Blackwell de Nvidia, aumentando el soporte para computación de alto rendimiento y cargas de trabajo de IA. Esto incluye máquinas virtuales equipadas con GPUs Nvidia HGX B200 y GB200 NVL72, diseñadas específicamente para tareas exigentes de IA y análisis de datos. Las GPUs GB200 NVL72 con refrigeración líquida ofrecerán inferencias en tiempo real para modelos de lenguaje de gran escala.
Si bien los modelos de IA de billones de parámetros todavía están en desarrollo—como SambaNova y el Switch Transformer de Google—fabricantes de chips como Nvidia y Cerebras están compitiendo por desarrollar hardware para estos tamaños de modelos en aumento.
Clientes notables de Google Cloud, como Character.AI, una empresa de chatbots valorada en más de $1 mil millones, ya están experimentando beneficios con la configuración actual de A3. El CEO Noam Shazeer enfatizó que su uso de las TPUs y las máquinas virtuales A3 de Google Cloud permite un entrenamiento y una inferencia más rápidos y eficientes de modelos de lenguaje grande (LLMs). Destacó el potencial de un rendimiento más de 2X eficiente en costos con la nueva generación de plataformas.
Presentando JetStream para un Mejor Rendimiento en IA
En el ámbito del software, Google Cloud ha lanzado JetStream, un motor de inferencia optimizado para modelos de lenguaje grandes. Esta herramienta mejora el rendimiento por dólar en modelos abiertos y es compatible con marcos como JAX y PyTorch/XLA, aumentando la eficiencia mientras reduce costos.
Soluciones de Almacenamiento Mejoradas para Cargas de Trabajo de IA
Las soluciones de almacenamiento de Google también están recibiendo mejoras. La introducción de características de caching posicionará los datos más cerca de las instancias de cómputo, acelerando el entrenamiento de IA, optimizando la eficiencia de GPU y TPU, y aumentando la rentabilidad energética. Destaca Hyperdisk ML, un nuevo servicio de almacenamiento en bloques que mejora los flujos de trabajo de inferencia y servicio de IA, ofreciendo tiempos de carga de modelos hasta 12 veces más rápidos.
Otras mejoras incluyen Cloud Storage FUSE, que incrementa el rendimiento de entrenamiento en un 2.9X, y Parallelstore, que permite el caching que acelera las velocidades de entrenamiento hasta en un 3.9X en comparación con cargadores de datos tradicionales. El sistema Filestore permite el acceso simultáneo a datos a través de GPUs y TPUs, mejorando los tiempos de entrenamiento hasta en un 56%.
Colaboraciones y Mejoras de Software
Google también está fomentando nuevas colaboraciones e introduciendo implementaciones escalables para modelos de difusión y lenguaje basados en JAX. El soporte para código de código abierto de PyTorch/XLA 2.3 mejorará la escalabilidad del entrenamiento distribuido a través de características como auto-sharding y checkpoints asíncronos.
En asociación con Hugging Face, el Optimum-TPU de Google Cloud permite a los clientes optimizar el entrenamiento y servicio de modelos de IA en los TPUs de Google. Además, Google ofrecerá microservicios de inferencia NVIDIA NIM, brindando a los desarrolladores opciones flexibles para el entrenamiento y despliegue de IA.
Para facilitar el uso, Google Cloud introduce un Programador de Cargas de Trabajo Dinámico, permitiendo a los clientes reservar GPUs por intervalos de 14 días, optimizando costos para cargas de trabajo de IA.
Estas actualizaciones ejemplifican los beneficios prácticos que surgen de la investigación de Google y sus soluciones innovadoras, creando un entorno integrado, eficiente y escalable para el entrenamiento e inferencia de IA.
En cuanto a los precios de las ofertas del AI Hypercomputer, los detalles siguen siendo inciertos. Será crucial observar cómo esta plataforma compite con Microsoft Azure y AWS en el desarrollo de IA empresarial y si Google puede mantener su compromiso de mejorar y apoyar extensamente el AI Hypercomputer.