AWSは、信頼性の高いコンピューティングリソースを必要とする機械学習開発者のための革新的なソリューションを導入しました。Amazon EC2 Capacity Blocksの機能により、ユーザーは生成AIや大規模言語モデルの訓練およびデプロイ専用のGPU容量を予約できるようになりました。このサービスはホテルの予約システムのように機能し、顧客は必要なGPUインスタンスの数や期間を指定できます。このアプローチにより、機械学習プロジェクトは計算能力の不足による中断なしに進行できます。
この新たなサービスを利用することで、企業はモデルの効率的な訓練や微調整、実験の実施、さらには災害復旧シナリオにおけるオンデマンド利用が可能になります。AWSのプリンシパルデベロッパーアドボケート、チャニー・ユン氏は「機械学習モデルの訓練や微調整、実験の実施、さらには将来の需要の爆発に備えるために、EC2 Capacity Blocksを必要に応じて使用できます」と強調しています。
現在、このサービスはNvidia H100 Tensor Core GPUを搭載したAmazon EC2 P5インスタンスで利用可能です。AWSの米国東部地域にいる顧客はこのサービスを利用でき、価格設定は需要と供給に応じて変動し、ユーザーは1日から14日、場合によっては最大8週間先までGPUインスタンスブロックを柔軟に購入できます。
このGPUレンタル市場への進出は、ハイパフォーマンスコンピューティングソリューションの需要が高まっていることを背景にした広範なトレンドを反映しています。特に、NexGen Cloudはモデル訓練用にリソースをレンタルできる「AIスーパークラウド」サービスを計画しています。さらに、Hugging Faceは今年初めに「Training Cluster as a Service」ソリューションを導入し、米国政府はPerlmutterスーパーコンピュータのレンタル価格を大幅に引き下げました。
AIチップの生産において、Nvidiaは引き続き先頭を走っています。第2四半期だけで、Nvidiaは約900トンのH100 GPUを出荷しましたが、AMD、IBM、SambaNovaなどの競合他社もこの急速に進化する市場で地歩を固めようと積極的に取り組んでいます。