Google Cloud Run интегрирует графические процессоры Nvidia для улучшения безсерверного AI-инференса.

Home Новости ИИ Google Cloud Run интегрирует графические процессоры Nvidia для улучшения безсерверного AI-инференса.

Updated on август 21 2024

Изучение затрат и преимуществ ИИ с безсерверной инфраструктурой

Запуск ИИ-приложений связан с различными затратами, ключевой из которых является мощность GPU для инференса. Традиционно организации, занимающиеся ИИ-инференсом, полагались на непрерывные облачные инстансы или локальное оборудование. Однако Google Cloud представляет инновационное решение, которое может изменить развертывание ИИ-приложений: интеграция Nvidia L4 GPU с предложением Cloud Run, что позволяет использовать безсерверный инференс.

Использование мощности безсерверного инференса

Главным преимуществом безсерверной архитектуры является ее экономическая эффективность: сервисы работают только по мере необходимости, позволяя пользователям платить лишь за фактическое использование. В отличие от традиционных облачных инстансов, работающих постоянно, безсерверные GPU активируются только при специфических запросах.

Безсерверный инференс может использовать Nvidia NIM и различные фреймворки, включая VLLM, PyTorch и Ollama. Поддержка Nvidia L4 GPU, находящаяся на стадии предварительного тестирования, ожидается с нетерпением.

«С увеличением использования ИИ клиенты стремятся развертывать ИИ-нагрузки на знакомых платформах», — заявил Сагар Рандива, менеджер продукта Google Cloud Serverless. «Эффективность и гибкость Cloud Run имеют решающее значение, и пользователи запрашивали поддержку GPU».

Переход к безсерверной среде ИИ

Google Cloud Run, полностью управляемая безсерверная платформа, стала популярной среди разработчиков благодаря простоте развертывания и управления контейнерами. С увеличением ИИ-нагрузок, особенно тех, которые требуют обработки в реальном времени, необходимость в улучшенных вычислительных ресурсах стала очевидной.

Добавление поддержки GPU открывает новые возможности для разработчиков Cloud Run, такие как:

- Инференс в реальном времени с легковесными моделями, такими как Gemma 2B/7B или Llama 3 (8B), что упрощает разработку отзывчивых чат-ботов и динамических инструментов для резюме документов.

- Индивидуально подстроенные генеративные ИИ-модели, позволяющие создавать масштабируемые приложения для генерации изображений, адаптированные под конкретные бренды.

- Ускоренные вычислительно интенсивные задачи, включая распознавание изображений, транскодирование видео и 3D-рендеринг, которые могут сокращаться до нуля в неактивном состоянии.

Соображения по производительности для безсерверного ИИ-инференса

Одной из общих проблем, связанных с безсерверными архитектурами, является производительность, особенно в случае «холодного старта». Google Cloud решает эти вопросы, предоставляя впечатляющие показатели: время холодного старта для различных моделей, включая Gemma 2B, Gemma 2 9B, Llama 2 7B/13B и Llama 3.1 8B, колеблется от 11 до 35 секунд.

Каждый инстанс Cloud Run может быть оснащен одним Nvidia L4 GPU, предоставляя до 24 ГБ vRAM — этого достаточно для большинства задач ИИ-инференса. Google Cloud старается сохранять нейтральность к моделям, хотя рекомендует использовать модели с количеством параметров менее 13 миллиардов для оптимальной производительности.

Экономия затрат при безсерверном ИИ-инференсе

Значительным преимуществом безсерверной модели является ее потенциал для лучшего использования аппаратного обеспечения, что может привести к экономии затрат. Однако, будет ли безсерверный ИИ-инференс дешевле, чем традиционные долгосрочные серверы, зависит от конкретного применения и ожидаемых схем трафика.

«Это вопрос нюансов», — пояснил Рандива. «Мы обновим наш калькулятор цен, чтобы отразить новую ценообразование на GPU с Cloud Run, позволяя клиентам сравнивать общие операционные расходы на разных платформах».

Адаптируясь к этой новой безсерверной политике, организации могут оптимизировать стратегии развертывания ИИ, эффективно управляя затратами.

Midjourney запускает сайт для всех пользователей: получите 25 бесплатных генераций изображений с ИИ уже сегодня!

LambdaTest представляет KaneAI: ваш универсальный агент для комплексного тестирования ПО.

Most people like

to-teach

80.1K

Преобразуйте свое образовательное путешествие с помощью персонализированных решений всего за несколько секунд. Узнайте, как индивидуальные подходы к обучению могут легко улучшить ваши навыки и понимание.

Искусственный интеллект AI Code Generator

Enalito

5.4K

Enalito помогает электронным коммерческим компаниям процветать благодаря инновационным маркетинговым стратегиям с использованием ИИ, специально разработанным для роста.

Маркетинг на основе ИИ AI Analytics Assistant

Vozo - AI Video Generator

176.7K

Раскройте потенциал вашего видеоконтента с помощью генератора видео на основе ИИ, который упрощает и улучшает процесс преобразования видео. Независимо от того, хотите ли вы создать увлекательные маркетинговые материалы, динамичные клипы для социальных сетей или захватывающие обучающие видео, этот инновационный инструмент позволяет вам легко получать высококачественные результаты. Откройте для себя будущее видеопродукции и позвольте вашим креативным идеям воплотиться в жизнь с помощью ИИ.

Генератор видео на основе ИИ AI Repurpose Assistant

Oversight

13.3K

Представляем нашу платформу с искусственным интеллектом, разработанную специально для управления рисками корпоративных расходов. Оптимизируйте финансовый контроль с помощью продвинутой аналитики и проактивного снижения рисков, гарантируя, что ваша организация эффективно управляет затратами, защищаясь от потенциальных финансовых проблем. Улучшите процессы принятия решений и максимизируйте прибыльность с нашим инновационным решением, адаптированным к современным реалиям конкурентного бизнеса.

Платформа на базе ИИ AI Knowledge Base

Find AI tools in YBX