2023年12月、Googleは「AIハイパーコンピュータ」を発表しました。この先駆的なスパコンアーキテクチャは、パフォーマンスを最適化したハードウェア、オープンソフトウェア、最新の機械学習フレームワーク、柔軟な利用モデルを統合しています。この取り組みは、Google Cloudの顧客に向けたAIのトレーニング、チューニング、提供の効率と生産性を向上させ、MicrosoftやAmazonと企業市場で競争することを目指しています。
Google Cloudの顧客は、このAIハイパーコンピュータを仮想的に利用することで、自らのAIモデルやアプリケーションをトレーニング可能です。SalesforceやLightricksといったクライアントは、Google CloudのTPU v5p AIハイパーコンピュータを活用し、大規模AIモデルのトレーニングに成功しています。
2024年にラスベガスで開催されるGoogle Cloud Nextでは、AIハイパーコンピュータの重要なアップグレードが発表され、多くの著名な顧客がこのプラットフォームを利用していることが強調されました。
Google Cloud AIハイパーコンピュータの強化
主要なアップグレードの一つは、Google Cloudの最新のTensor Processing Unit(TPU)v5pの提供です。これは、最も強力でスケーラブル、かつ柔軟なAIアクセラレーターです。さらに、GoogleはA3仮想マシン(VM)ファミリーを強化し、NVIDIA H100 Tensor Core GPUを搭載したA3 Mega構成を発表する予定で、これは5月に登場します。A3 Mega VMsは、各800億トランジスタを含む先進的なGPUを使用します。
また、GoogleはNvidiaの最新のBlackwell GPUを統合し、高性能コンピューティング(HPC)やAIのワークロードへのサポートを強化します。これには、AIやデータ分析の高い要求に応じたNvidia HGX B200およびGB200 NVL72 GPUを搭載した仮想マシンが含まれ、液冷式のGB200 NVL72 GPUはリアルタイムLLM推論を提供し、トリリオンパラメータモデルの大規模トレーニングをサポートします。
トリリオンパラメータAIモデルはまだ発展途上であり、SambaNovaやGoogleのSwitch Transformerのような新たな技術が台頭しています。NvidiaやCerebrasのような半導体メーカーは、ますます大きくなるモデルサイズに対応するハードウェアの開発に注力しています。
1兆ドルの市場価値を持つチャットボット企業Character.AIのような著名なGoogle Cloud顧客は、現在のA3セットアップからすでにメリットを享受しています。CEOのNoam Shazeer氏は、Google CloudのTPUやA3 VMの活用により、大規模言語モデル(LLM)のトレーニングと推論がより迅速かつ効率的に行えると強調しています。新しい世代のプラットフォームから過去2倍のコスト効率性能が期待できると述べました。
JetStreamによるAIパフォーマンスの向上
ソフトウェア側では、Google Cloudは大規模言語モデルに最適化された推論エンジン「JetStream」を発表しました。このツールは、オープンモデルの性能を向上させるとともに、JAXやPyTorch/XLAなどのフレームワークに対応し、効率性を高めながらコストを削減します。
AIワークロード向けのストレージソリューションのアップグレード
Googleのストレージソリューションも強化されます。新たに導入されるキャッシング機能により、データがコンピュートインスタンスの近くに配置されることで、AIトレーニングが加速され、GPUやTPUの効率が最適化され、エネルギーコストの効果も高まります。特に、Hyperdisk MLという新しいブロックストレージサービスは、AIの推論と提供のワークフローを改善し、最大12倍のモデル読み込み時間を実現します。
その他、Cloud Storage FUSEのアップグレードにより、トレーニングスループットが2.9倍向上し、Parallelstoreにより伝統的なデータローダーに比べてトレーニング速度が最大3.9倍向上します。Filestoreシステムは、GPUとTPU間での同時データアクセスを可能にし、トレーニング時間を最大56%短縮します。
コラボレーションとソフトウェアのアップグレード
Googleは新たなコラボレーションを推進し、JAXに基づいた拡張可能な拡散および言語モデルの実装を導入します。PyTorch/XLA 2.3からのオープンソースコードのサポートにより、オートシャーディングや非同期チェックポイントなどの機能を通じて、分散トレーニングのスケーラビリティが向上します。
Hugging Faceとの提携により、Google CloudのOptimum-TPUは、クライアントがGoogleのTPU上でAIモデルのトレーニングと提供を最適化できるようにします。加えて、GoogleはNVIDIA NIM推論マイクロサービスを提供し、開発者にAIトレーニングと展開の柔軟な選択肢を提供します。
これらの更新は、Googleの研究と革新的なソリューションから生まれるビジネス上の実際的なメリットを体現しており、AIトレーニングと推論のための統合的で効率的、かつスケーラブルな環境を構築しています。
AIハイパーコンピュータの料金はまだ発表されていません。このプラットフォームがMicrosoft AzureやAWSとの競争をどう展開するか、そしてGoogleがAIハイパーコンピュータの改善と支援を持続できるかどうかが注目されます。