生成AIモデルの性能を測定する単一の指標は存在しませんが、重要な指標としては、1秒あたりに処理されるトークン数があります。このたび、SambaNovaシステムズは、Llama 3の8Bパラメータ指示モデルで1秒あたり1,000トークンという驚異的な業績を達成したと発表しました。Llama 3のこれまでの最速ベンチマークはGroqの800トークンでした。この新しいマイルストーンは、検証機関であるArtificial Analysisによって独立して確認されました。処理速度の向上は、企業にとって重要な意味を持ち、迅速な応答時間、ハードウェアの効率的な利用、運用コストの削減を実現する可能性があります。
AI性能を巡る競争
「AIチップの競争が期待以上に加速しています。実世界での性能に焦点を当てた独立したベンチマークで、SambaNovaの主張を検証できたことに興奮しています」とArtificial Analysisの共同創設者ジョージ・キャメロンは述べています。「AI開発者は、特に応答時間が重要なAIエージェントや消費者向けAIソリューション向けのハードウェア選択肢を広げることができました。」
SambaNovaがLlama 3と生成AIを加速させる方法
SambaNovaは、ハードウェアとソフトウェアの両方の能力を特徴とする、企業向けの生成AIソリューションを開発することに注力しています。
ハードウェア面では、同社はReconfigurable Dataflow Unit(RDU)と呼ばれる独自のAIチップを設計しました。これはNvidiaのAIアクセラレーターに似ており、トレーニングと推論の両方に優れ、特に企業のワークロードとモデルの微調整を強化します。最新モデルのSN40Lは2023年9月に発表されました。
また、SambaNovaは、独自のソフトウェアスタックを提供しており、2023年2月28日に発表したSamba-1モデルを含んでいます。このモデルは1兆のパラメータから成り、Samba-CoE(専門家の組み合わせ)と呼ばれ、企業が複数のモデルを独立してまたは組み合わせて使用できるようにカスタマイズされています。
1秒あたりの1,000トークン速度について、SambaNovaはテスト用に提供されたAPIバージョンのSamba-1 Turboモデルを使用しました。同社はこれらの速度向上をできるだけ早くメインの企業モデルに統合する計画です。ただし、キャメロン氏は、Groqの800トークンは公共APIエンドポイントに基づくのに対し、SambaNovaの結果は専用プライベートエンドポイントからのものであり、直接の比較は単純ではないと指摘しました。「それでも、この速度は他のAPIプロバイダーの中央値の8倍を超え、Nvidia H100の一般的な出力速度よりも数倍速いです」とキャメロンは述べています。
再構成可能なデータフローによる性能向上
SambaNovaの性能は、そのRDU技術の中心である再構成可能なデータフローアーキテクチャによって推進されています。このアーキテクチャは、コンパイラーマッピングを通じてニューラルネットワークのレイヤーとカーネル間でリソースを最適に割り当てることを可能にします。「データフローを利用することで、モデルのマッピングを継続的に改良できるため、完全に再構成可能です」とSambaNovaのCEOで創設者のロドリゴ・リアンが述べています。「これにより、累積的な利益だけでなく、ソフトウェアの進化に応じて大幅な効率と性能の向上を実現します。」
Llama 3がリリースされた当初、リアンのチームはSamba-1上で330トークンの性能を達成しましたが、最近の大規模な最適化により、この速度は1,000トークンにまで向上しました。リアンは、最適化はカーネル間のリソース配分のバランスを取ることでボトルネックを防ぎ、ニューラルネットワークパイプライン全体のスループットを最大化することに関連していると説明しています。
企業品質と高速性
リアンは、SambaNovaが16ビットの精度を用いてこの速度マイルストーンを達成していると強調しました。この基準は、企業が求める品質を保証します。「私たちは、良質で出力の幻覚を最小限に抑えたいという顧客のニーズを優先し、常に16ビットの精度を活用してきました。」
企業ユーザーにとって速度の重要性は増しており、組織はますますAIエージェント主導のワークフローを採用しています。また、生成時間が短縮されれば経済的なメリットも得られます。「応答をより迅速に生成できるほど、他の人が利用できるリソースが解放されます」と彼は述べました。「最終的には、よりコンパクトなインフラとコスト削減につながります。」