ミストラルAIが、言語処理と視覚処理の両方を統合した初のモデル「Pixtral 12B」を発表し、マルチモーダル領域にデビューしました。この新たな開発により、ミストラルはOpenAIやAnthropicといった主要企業と競争することが可能になります。
現在、Pixtral 12Bは一般のウェブ上では利用できませんが、開発者はHugging FaceやGitHubからソースコードをダウンロードし、個別にテストすることができます。一般的なAIリリースのプロトコルとは異なり、ミストラルはまずトレントリンクを共有し、ユーザーがモデルファイルをダウンロードできるようにしました。
開発者向けリレーションズ責任者のソフィア・ヤンは、Xでの投稿を通じて、モデルが間もなくミストラルのウェブチャットボットを通じて利用可能になると発表しました。これにより、開発者はその機能を試すことができます。さらに、このモデルはミストラルの「La Platforme」に統合され、同社のモデルにアクセスするためのAPIエンドポイントが提供されます。
Pixtral 12Bの特徴とは?
Pixtral 12Bは、トレーニングデータの詳細はまだ公開されていませんが、テキストプロンプトと画像分析を組み合わせることを目的としています。ユーザーは画像をアップロードしたり、リンクを提供して、その内容に関する質問を行うことができます。
これはミストラルの初のマルチモーダルモデルですが、OpenAIやAnthropicはすでに類似の機能を持っている点に注意が必要です。Pixtralの独自の特徴について尋ねられたヤンは、異なるサイズの画像を任意の数だけ処理できることを強調しました。
初期のテスターによると、24GBのこのモデルは、40層、14,336の隠れ次元、32のアテンションヘッドを持つ堅牢なアーキテクチャを誇っています。専用のビジョンエンコーダは、解像度1024×1024の画像をサポートし、高度な画像分析のための24の隠れ層を備えています。
MistralAPIを介してモデルをリリースする準備を進める中で、コンテンツやデータ分析などのビジョンアプリケーションへの活用可能性が明らかになるでしょう。このオープンモデルの具体的な性能はまだ不明ですが、ミストラルのAI分野における大きな野心を象徴しています。
ミストラルは昨年の設立以来、OpenAIなどの業界リーダーに挑むモデルのラインアップを迅速に開発してきました。また、Microsoft、AWS、Snowflakeといった大手企業との戦略的パートナーシップを結び、技術の普及を強化しています。最近、ミストラルは64億ドルの評価額で6億4000万ドルを調達し、GPT-4レベルのマルチリンガル機能を持つ「Mistral Large 2」を発表しました。このモデルは、推論能力やコード生成、数学的パフォーマンスの向上を特徴としています。
さらに、ミストラルはエキスパートの混合モデル「Mixtral」や、220億パラメータを持つオープンウェイトのコーディングモデル「Codestral」、数学的推論や科学的発見に向けたモデルも導入しています。