スタートアップ・チップ企業のGroqが、Metaの新たにリリースされたLLaMA 3大規模言語モデルに対して、800トークン毎秒を超える処理能力を実現していると、リツイートを通じて示唆しました。LLaMA 3のベンチマークを行っているエンジニアのDan JakaitisはX(旧Twitter)で、「APIに対して少しテストしてみましたが、サービスはハードウェアデモほど速くはありません。おそらくソフトウェアの問題でしょうが、Groqのさらなる採用を楽しみにしています」と述べています。
一方で、OthersideAIの共同創設者兼CEOのMatt Shumerや他の著名なユーザーは、GroqのシステムがLLaMA 3を用いた場合、実際に800トークン毎秒を超える高速推論を実現していると報告しています。これが確認されれば、このパフォーマンスは既存のCloud AIサービスを大きく上回ることになります。
AIに最適化された新しいプロセッサアーキテクチャ
資金調達に成功したSiriコンバレーのスタートアップGroqは、深層学習に不可欠な行列乗算操作に特化したユニークなプロセッサアーキテクチャを開発しています。そのTensor Streaming Processorは、従来のCPUやGPUのキャッシュや複雑な制御ロジックを避け、AIタスクに最適化されたストリームラインモデルを採用しています。
一般用途プロセッサに見られるオーバーヘッドやメモリボトルネックを最小限に抑えることで、GroqはAI推論の性能と効率が向上すると主張しています。LLaMA 3での800トークン毎秒の結果が証明されれば、この主張が裏付けられることになります。
Groqのアーキテクチャは、Nvidiaや他の既存のチップメーカーとは大きく異なります。一般用途チップをAI向けに改造するのではなく、Groqは深層学習の計算要求を高めるためにTensor Streaming Processorを独自に設計しました。この革新的なアプローチにより、Groqは不要な回路を排除し、AI推論に固有の反復的かつ並行処理可能なタスクのデータフローを最適化できます。その結果、従来の大規模ニューラルネットワークの運用にかかるレイテンシや電力消費、コストが大幅に削減されます。
高速かつ効率的なAI推論の必要性
800トークン毎秒を達成することは、約48,000トークン毎分に相当し、わずか1秒で約500語のテキストを生成するのに十分な速度です。このスピードは、今日のクラウド環境における大規模言語モデルの典型的な推論速度の約10倍です。
言語モデルは億単位のパラメータを持つほど大規模化しており、迅速かつ効率的なAI推論の需要が高まっています。これらの巨大モデルのトレーニングは計算集約型ですが、コスト効率よく展開するには迅速に処理できるハードウェアが不可欠です。これは、チャットボットやバーチャルアシスタント、インタラクティブプラットフォームなど、レイテンシに敏感なアプリケーションにとって非常に重要です。
AI推論のエネルギー効率は、技術の拡大に伴ってますます重要視されています。データセンターのエネルギー消費はすでに大きな問題であり、大規模AIの重い計算要求によってこの問題が悪化する恐れがあります。高パフォーマンスと低エネルギー消費を両立したハードウェアは、AIを持続可能にするために不可欠であり、GroqのTensor Streaming Processorはこの効率的な挑戦に対応するために設計されています。
Nvidiaの支配に挑戦するGroq
Nvidiaは、A100およびH100 GPUを用いてAIプロセッサ市場をリードしており、Cloud AIサービスの大半を支えています。しかし、Groq、Cerebras、SambaNova、Graphcoreなど、新たに登場するスタートアップは、AI用に特別に設計された革新アーキテクチャを持っています。
これらの挑戦者の中で、Groqは推論とトレーニングの両方に重点を置いていることを特に強調しています。CEOのJonathan Rossは、2024年末までにほとんどのAIスタートアップがGroqの低精度テンサー・ストリーミング・プロセッサを推論に採用すると自信を持って予測しています。
MetaのLLaMA 3のリリースは、Groqが自社のハードウェアの推論能力を証明する理想的な機会を提供します。Groqの技術がLLaMA 3を実行する際に主流の代替手段を上回ることができれば、スタートアップの主張が裏付けられ、市場の採用が加速するでしょう。また、同社はクラウドサービスや戦略的パートナーシップを通じてチップのアクセス性を向上させる新しいビジネスユニットを設立しました。
LLaMAのような強力なオープンモデルと、Groqの効率的なAIファースト推論ハードウェアの融合は、ビジネスや開発者にとって高度な言語AIをより利用可能でコスト効果の高いものにする可能性があります。しかし、Nvidiaは依然として強力な競争相手であり、他の挑戦者も新たな機会を生かす準備を整えています。
AIモデルの進化に対応できるインフラの構築競争が激化する中、手頃なコストでのリアルタイムAI推論の実現は、eコマース、教育、金融、医療など多くの分野に革命を起こす可能性があります。X.comのユーザーの一人は、この瞬間を簡潔にまとめています。「速度 + 低コスト + 高品質 = 今は他を使う意味がない」。今後数ヶ月で、この主張が真実であるかどうかが明らかになるでしょう。AIハードウェアの landscapeが伝統的な規範に立ち向かう中で進化していることを示しています。