Google Cloud Run интегрирует графические процессоры Nvidia для улучшения безсерверного AI-инференса.

Изучение затрат и преимуществ ИИ с безсерверной инфраструктурой

Запуск ИИ-приложений связан с различными затратами, ключевой из которых является мощность GPU для инференса. Традиционно организации, занимающиеся ИИ-инференсом, полагались на непрерывные облачные инстансы или локальное оборудование. Однако Google Cloud представляет инновационное решение, которое может изменить развертывание ИИ-приложений: интеграция Nvidia L4 GPU с предложением Cloud Run, что позволяет использовать безсерверный инференс.

Использование мощности безсерверного инференса

Главным преимуществом безсерверной архитектуры является ее экономическая эффективность: сервисы работают только по мере необходимости, позволяя пользователям платить лишь за фактическое использование. В отличие от традиционных облачных инстансов, работающих постоянно, безсерверные GPU активируются только при специфических запросах.

Безсерверный инференс может использовать Nvidia NIM и различные фреймворки, включая VLLM, PyTorch и Ollama. Поддержка Nvidia L4 GPU, находящаяся на стадии предварительного тестирования, ожидается с нетерпением.

«С увеличением использования ИИ клиенты стремятся развертывать ИИ-нагрузки на знакомых платформах», — заявил Сагар Рандива, менеджер продукта Google Cloud Serverless. «Эффективность и гибкость Cloud Run имеют решающее значение, и пользователи запрашивали поддержку GPU».

Переход к безсерверной среде ИИ

Google Cloud Run, полностью управляемая безсерверная платформа, стала популярной среди разработчиков благодаря простоте развертывания и управления контейнерами. С увеличением ИИ-нагрузок, особенно тех, которые требуют обработки в реальном времени, необходимость в улучшенных вычислительных ресурсах стала очевидной.

Добавление поддержки GPU открывает новые возможности для разработчиков Cloud Run, такие как:

- Инференс в реальном времени с легковесными моделями, такими как Gemma 2B/7B или Llama 3 (8B), что упрощает разработку отзывчивых чат-ботов и динамических инструментов для резюме документов.

- Индивидуально подстроенные генеративные ИИ-модели, позволяющие создавать масштабируемые приложения для генерации изображений, адаптированные под конкретные бренды.

- Ускоренные вычислительно интенсивные задачи, включая распознавание изображений, транскодирование видео и 3D-рендеринг, которые могут сокращаться до нуля в неактивном состоянии.

Соображения по производительности для безсерверного ИИ-инференса

Одной из общих проблем, связанных с безсерверными архитектурами, является производительность, особенно в случае «холодного старта». Google Cloud решает эти вопросы, предоставляя впечатляющие показатели: время холодного старта для различных моделей, включая Gemma 2B, Gemma 2 9B, Llama 2 7B/13B и Llama 3.1 8B, колеблется от 11 до 35 секунд.

Каждый инстанс Cloud Run может быть оснащен одним Nvidia L4 GPU, предоставляя до 24 ГБ vRAM — этого достаточно для большинства задач ИИ-инференса. Google Cloud старается сохранять нейтральность к моделям, хотя рекомендует использовать модели с количеством параметров менее 13 миллиардов для оптимальной производительности.

Экономия затрат при безсерверном ИИ-инференсе

Значительным преимуществом безсерверной модели является ее потенциал для лучшего использования аппаратного обеспечения, что может привести к экономии затрат. Однако, будет ли безсерверный ИИ-инференс дешевле, чем традиционные долгосрочные серверы, зависит от конкретного применения и ожидаемых схем трафика.

«Это вопрос нюансов», — пояснил Рандива. «Мы обновим наш калькулятор цен, чтобы отразить новую ценообразование на GPU с Cloud Run, позволяя клиентам сравнивать общие операционные расходы на разных платформах».

Адаптируясь к этой новой безсерверной политике, организации могут оптимизировать стратегии развертывания ИИ, эффективно управляя затратами.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles