Google улучшает AI-гиперкопьютер для корпоративных приложений на Cloud Next

В декабре 2023 года Google представил свою «Гиперплатформу AI» — новаторскую архитектуру суперкомпьютера, которая объединяет производительное оборудование, открытое программное обеспечение, передовые фреймворки машинного обучения и гибкие модели потребления. Инициатива направлена на повышение эффективности и производительности в процессе обучения, настройки и предоставления ИИ для клиентов Google Cloud, конкурируя с Microsoft и Amazon за долю рынка предприятий.

Клиенты Google Cloud могут виртуально использовать эту Гиперплатформу AI, что позволяет им обучать собственные модели и приложения ИИ. Такие клиенты, как Salesforce и Lightricks, уже успешно применяют гиперплатформу TPU v5p для обучения крупных моделей ИИ.

На конференции Google Cloud Next 2024 в Лас-Вегасе компания представила значительные обновления своей Гиперплатформы AI, подчеркнув рост числа высокопрофильных клиентов, использующих эту платформу.

Улучшения Гиперплатформы AI Google Cloud

Первое значительное обновление связано с доступностью TPU v5p — самого мощного, масштабируемого и гибкого ускорителя ИИ от Google. Кроме того, Google улучшает свою семью виртуальных машин (VM) A3, вводя конфигурации A3 Mega на базе GPU NVIDIA H100 Tensor Core, которые выйдут в мае. Виртуальные машины A3 Mega будут использовать эти современные GPU, каждый из которых содержит 80 миллиардов транзисторов.

Кроме этого, Google планирует интегрировать новейшие GPU Blackwell от Nvidia, что повысит поддержку высокопроизводительных вычислений (HPC) и нагрузок ИИ. Это включает виртуальные машины с GPU Nvidia HGX B200 и GB200 NVL72, специально разработанные для сложных задач ИИ и анализа данных. Охлаждаемые жидкостью GPU GB200 NVL72 обеспечат выполнение инференса LLM в реальном времени и поддержку крупномасштабного обучения моделей с триллионом параметров.

Хотя модели ИИ с триллионом параметров, такие как SambaNova и Switch Transformer от Google, все еще находятся в стадии формирования, производители чипов, такие как Nvidia и Cerebras, торопятся разработать аппаратное обеспечение для этих возрастающих размеров моделей.

Значимые клиенты Google Cloud, такие как Character.AI, компания по разработке чат-ботов с оценочной стоимостью более $1 миллиарда, уже получают преимущества от текущей конфигурации A3. Генеральный директор Ноам Шазир отметил, что использование TPU и A3 VM от Google Cloud позволяет им более быстро и эффективно обучать и проводить инференс больших языковых моделей (LLM), подчеркивая потенциал повышения эффективности в более чем 2 раза от новой генерации платформ.

Введение JetStream для улучшения работы ИИ

На программном уровне Google Cloud запустил JetStream, движок инференса, оптимизированный для больших языковых моделей. Этот инструмент улучшает производительность на доллар затрат и поддерживает такие фреймворки, как JAX и PyTorch/XLA, повышая эффективность и снижая затраты.

Улучшенные решения хранения для задач ИИ

Решения хранения данных Google также получают обновления. Появление кэширования расположит данные ближе к вычислительным экземплярам, ускоряя обучение ИИ, оптимизируя эффективность GPU и TPU и повышая экономичность расхода энергии. Новая служба блочного хранения Hyperdisk ML улучшает инференс и рабочие процессы предоставления ИИ, обеспечивая загрузку моделей до 12 раз быстрее.

Дополнительные обновления включают Cloud Storage FUSE, увеличивающие пропускную способность обучения в 2,9 раза, и Parallelstore, позволяющий кэширование, которое ускоряет обучение до 3,9 раз по сравнению с традиционными загрузчиками данных. Система Filestore обеспечивает одновременный доступ к данным через GPU и TPU, улучшая время обучения до 56%.

Сотрудничество и обновления программного обеспечения

Google также активно развивает новые сотрудничества и внедряет масштабируемые реализации для диффузионных и языковых моделей на базе JAX. Поддержка открытого кода PyTorch/XLA 2.3 улучшит масштабируемость распределенного обучения благодаря таким функциям, как автоматическое разделение данных и асинхронное сохранение контрольных точек.

В сотрудничестве с Hugging Face Optimum-TPU от Google Cloud помогает клиентам оптимизировать обучение и предоставление моделей ИИ на TPU от Google. Кроме того, Google предложит микросервисы NVIDIA NIM для инференса, предоставляя разработчикам гибкие варианты для обучения и развертывания ИИ.

Чтобы облегчить использование, Google Cloud вводит Динамический планировщик нагрузки, позволяя клиентам резервировать GPU на 14 дней, оптимизируя затраты на вычислительные задачи ИИ.

Эти обновления демонстрируют практические бизнес-преимущества, вытекающие из исследований и инновационных решений Google, создавая интегрированную, эффективную и масштабируемую среду для обучения и инференса ИИ.

Что касается цен на предложения Гиперплатформы AI, подробности остаются неизвестными. Будет важно увидеть, как эта платформа составит конкуренцию Microsoft Azure и AWS в области разработки ИИ для предприятий и сможет ли Google поддерживать свою приверженность улучшению и всестороннему обслуживанию Гиперплатформы AI.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles