ミストラルAI、新しい「エキスパートの混合モデル」を発表し、ダウンロード用トレントリンクを提供

GoogleのCloud Nextカンファレンスで一連の人工知能の進展を発表する中、AI分野で急成長を遂げるMistral AIは最新のスパースエキスパート混合モデル(SMoE)「Mixtral 8x22B」を発表しました。競合他社が通常用いるデモビデオやブログ投稿の代わりに、このパリに本拠を置くスタートアップは、ユーザーが新しいモデルを直接ダウンロードしてテストできるトレントリンクをX上で共有するという独自のアプローチを選びました。

このリリースは、GPT-4 Turbo(視覚機能付き)とGemini 1.5 Proの発表に続くMistralの3つ目の主要なモデル導入であり、Metaも次月にLlama 3の発表を予告しています。

Mistralのトレントファイルには262GBの4つのコンポーネントが含まれており、Mixtral 8x22Bの詳細な機能はまだ明らかにされていませんが、AI愛好者たちの期待は高まっています。ただし、ローカルでのモデル実行には課題が伴う可能性があります。あるRedditユーザーは、「M1 Max Macbookを購入した時、32GBはオーバースペックだと思ったけれど、AIへの関心が高まるとは思ってもみなかった」と述べています。

Mixtral 8x22Bの発表後、MistralはHugging Face上でもモデルを利用できるようにし、事前トレーニングされたモデルにはモデレーション機能がないことを強調しました。また、Together AIもユーザーがテストできる環境を提供しています。

MistralはスパースMoEアプローチを活用し、特定のタスクに最適化された強力な専門モデルの組み合わせを提供することを目指しています。ウェブサイトでMistralは、「各レイヤーの各トークンに対して、ルーターネットワークがこれらの『エキスパート』のうちの2つを選択し、その出力を加算的に結合します。この方法により、モデルパラメータの数が増えつつ、トークンごとに総パラメータの一部だけがアクティブになるため、コストとレイテンシが管理されます」と説明しています。

以前、同社はMixtral 8x7Bを発表しました。このモデルは46.7億の総パラメータを持ちつつ、トークンあたりのアクティブパラメータは12.9億に留まり、12.9億モデルと同じ速度・コストで入力処理と出力生成を実現しています。最新のリリースでは、Redditの議論によれば、合計で130億のパラメータがあり、同時に2つのエキスパートがアクティブになると仮定すると、38億のアクティブパラメータがトークン生成に関与することになります。

Mixtral 8x22Bのベンチマークでの実際のパフォーマンスはまだ確定していませんが、高い期待が寄せられています。ユーザーたちは、このモデルがMixtralの成功を基にさらに発展し、MetaのLlama 2 70BやOpenAIのGPT-3.5をGSM-8KやMMLUなど多くのベンチマークで上回り、より速い推論時間を提供することを信じています。

Most people like

Find AI tools in YBX