SambaNova、エンタープライズ向け生成AIソリューションのための1兆パラメータ「エキスパート・モデル」を発表

サンバノバシステムズが、これまでで最大級の大規模言語モデル(LLM)、1兆パラメーターを持つ「サンバ-1」を発表しました。オープンAIのGPT-4とは異なり、サンバ-1は単一のモデルではなく、50以上の高品質なAIモデルを組み合わせた「エキスパートの構成アーキテクチャ」によって、特定の企業向けアプリケーションに合わせてカスタマイズおよび最適化が可能です。

9月には、サンバノバがNvidiaに挑むために設計されたSN40L AIチップを発表しました。サンバ-1モデルは、サンバノバスイートに組み込まれ、組織がモデルを効果的に適応させて展開できるようになります。

サンバノバの共同創設者兼CEO、ロドリゴ・リアンは、事前に構成、トレーニング、最適化されたモデルを提供する価値を強調しました。この機能により、企業は通例必要とされる広範な微調整なしで高性能なデプロイメントを実現できます。

サンバ-1のエキスパートの構成による巨大LLMの構築

サンバ-1は、個別にトレーニングされた50を超えるAIモデルで構成されており、それぞれのモデルは統合性を最適化しています。これには、サンバノバの独自モデルや、具体的なタスクに適したオープンソースモデル(Llama 2、Mistral、DeepSeek Coder、Falcon、DePlot、CLIP、Llavaなど)が含まれます。

「私たちは最高のモデルを活用し、最適化して、1兆パラメーターの単一モデルに統合しました」とリアンは述べています。サンバ-1内のモデル同士はシームレスに相互作用し、一方のモデルからの応答が他方のモデルへの入力として機能します。

LLMを連鎖させて出力を得る手法は新しいものではありませんが、人気のオープンソース技術であるLangChainがその一例です。しかしリアンは、サンバ-1のエキスパートの構成アプローチが大きな利点を持っていると主張しています。LangChainがユーザーにモデルチェーンを事前に定義させるのに対し、サンバ-1ではプロンプトと応答に応じてエキスパートを動的に接続でき、柔軟性が高まります。

さらに、サンバ-1は異なるデータセットでトレーニングされたモデルを活用することで、さまざまな視点を提供します。「50のLangChainに相当するモデルを動的に生成し、多様な結果を探求できます」と彼は述べました。

エキスパートの構成とエキスパートの混合の違い

エキスパートの構成と、Mistralなどの一部のLLMで使用されるエキスパートの混合アプローチを区別することが重要です。リアンによると、エキスパートの混合は複数のデータセットにわたってトレーニングされた単一のモデルを使用し、データプライバシーのリスクがある可能性があります。

これに対し、エキスパートの構成は、各モデルを別々の安全なデータセットでトレーニングすることで、それぞれのセキュリティを維持します。このアプローチにより、トレーニング中のセキュリティプロトコルはデプロイメントや推論にも適用されます。

1兆パラメーター以上のカスタマイズソリューション

サンバ-1は1兆のパラメーターを誇るものの、組織によってはこの規模が必ずしも必要ではない場合もあります。複数の専門モデルを活用することで、サンバ-1はより効率的に幅広い機能を提供します。

「すべてのプロンプトで一度にすべての1兆パラメーターを起動する必要はありません」とリアンは説明しました。これにより、効率が向上し、電力と帯域幅の使用が削減され、必要なエキスパートのみが使用されるため、運用にかかる負担が軽減されます。

サンバノバは顧客が独自のデータでモデルをトレーニングできるようにし、企業がユニークで最適化された資産を開発することを可能にしています。「サンバ-1を使えば、自分のプライベートな1兆パラメーターのモデルを持つことができ、一度データでトレーニングされれば、それは無期限にあなたのものです」とリアンは述べています。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles