Explorando los Costos y Beneficios de la IA con Infraestructura Serverless
Ejecutar aplicaciones de IA conlleva diversos costos, siendo el poder de GPU para inferencia uno de los más significativos. Tradicionalmente, las organizaciones que gestionan la inferencia de IA han dependido de instancias en la nube continuas o de hardware local. Sin embargo, Google Cloud está presentando una solución innovadora que podría transformar el despliegue de aplicaciones de IA: la integración de GPU Nvidia L4 con su oferta serverless Cloud Run, permitiendo a las organizaciones realizar inferencias sin servidor.
Aprovechando el Poder de la Inferencia Serverless
La principal ventaja de la arquitectura serverless es su eficiencia en costos; los servicios operan solo cuando se necesitan, lo que permite a los usuarios pagar únicamente por el uso. A diferencia de las instancias en la nube convencionales que funcionan continuamente, las GPU serverless se activan solo durante solicitudes específicas.
La inferencia serverless puede utilizar Nvidia NIM y diversos marcos, incluidos VLLM, PyTorch y Ollama. Actualmente en vista previa, el soporte para GPU Nvidia L4 ha sido muy esperado. “A medida que los clientes adoptan cada vez más la IA, desean implementar cargas de trabajo de IA en plataformas familiares,” comentó Sagar Randive, Gerente de Producto para Google Cloud Serverless. “La eficiencia y flexibilidad de Cloud Run son cruciales, y los usuarios han solicitado soporte para GPU.”
La Transición a un Entorno de IA Serverless
Cloud Run de Google, una plataforma serverless totalmente gestionada, ha ganado popularidad entre los desarrolladores por su facilidad en el despliegue y gestión de contenedores. A medida que las cargas de trabajo de IA crecen—especialmente aquellas que requieren procesamiento en tiempo real—la necesidad de recursos computacionales mejorados se ha vuelto evidente.
La adición de soporte para GPU abre diferentes posibilidades para los desarrolladores de Cloud Run, tales como:
- Inferencia en tiempo real con modelos ligeros como Gemma 2B/7B o Llama 3 (8B), facilitando el desarrollo de chatbots receptivos y herramientas dinámicas de resumen de documentos.
- Modelos de IA generativa personalizados y ajustados, lo que permite aplicaciones de generación de imágenes escalables adaptadas a marcas específicas.
- Aceleración de tareas intensivas en cómputo, incluyendo reconocimiento de imágenes, transcodificación de video y renderizado 3D, que pueden escalar a cero cuando están inactivas.
Consideraciones de Rendimiento para Inferencias de IA Serverless
Una preocupación común asociada con las arquitecturas serverless es el rendimiento, particularmente con los arranques en frío. Google Cloud aborda estas inquietudes proporcionando métricas impresionantes: los tiempos de arranque en frío para varios modelos, incluidos Gemma 2B, Gemma 2 9B, Llama 2 7B/13B y Llama 3.1 8B, oscilan entre 11 y 35 segundos.
Cada instancia de Cloud Run puede estar equipada con una GPU Nvidia L4, proporcionando hasta 24GB de vRAM—suficiente para la mayoría de las tareas de inferencia de IA. Google Cloud busca mantener el modelo agnóstico en cuanto a los modelos, aunque se recomienda el uso de modelos con menos de 13 mil millones de parámetros para un rendimiento óptimo.
Eficiencia en Costos de la Inferencia de IA Serverless
Una ventaja significativa del modelo serverless es su potencial para una mejor utilización del hardware, lo que puede traducirse en ahorros. Sin embargo, si la inferencia de IA serverless resulta más económica que los servidores tradicionales de larga duración depende de la aplicación específica y de los patrones de tráfico esperados.
“Esto es matizado,” explicó Randive. “Actualizaremos nuestro calculador de precios para reflejar los nuevos precios de GPU con Cloud Run, permitiendo a los clientes comparar sus costos operativos totales en diferentes plataformas.”
Al adaptarse a esta política emergente serverless, las organizaciones pueden optimizar sus estrategias de despliegue de IA mientras gestionan los costos de manera efectiva.