Salesforce(セールスフォース)は、新しいオープンソースの大規模マルチモーダルAIモデル群「xGen-MM」(またはBLIP-3)を発表しました。この革新的なリリースは、高度な人工知能システムの開発を加速させる可能性があります。
xGen-MMフレームワークは、Salesforce AIリサーチの研究者によってarXivに公開された論文に詳述されており、事前訓練済みモデル、包括的なデータセット、およびファインチューニング用コードで構成されています。最大のモデルは40億のパラメータを持ち、類似のオープンソースモデルと比べても競争力のある性能を示しています。
著者は、「私たちはモデルと大規模にキュレーションしたデータセット、ファインチューニング用のコードベースをオープンソース化し、LMM(大規模マルチモーダル)研究のさらなる進展を促進する」と述べています。この取り組みは、独自モデルのトレンドからの転換を示しており、最先端のマルチモーダルAI技術へのアクセスを民主化する可能性を秘めています。
xGen-MM(BLIP-3)フレームワークのスキーマ図は、画像とテキストデータを交互に処理する様子を表しています。モデルは、画像をエンコードするためにビジョントランスフォーマーを使用し、視覚情報を圧縮するトークンサンプラーを用い、テキスト生成には事前訓練された大規模言語モデルを活用します。
xGen-MMの注目すべき革新は、複数の画像とテキストを組み合わせた「交互データ」を管理できる能力です。研究者たちはこれを「最も自然な形のマルチモーダルデータ」と見なしており、この能力により、複数の画像について同時に質問に回答するなどの複雑なタスクを遂行できます。医療診断や自律走行車など、さまざまな分野での応用が期待されます。
リリースには、特定のタスクに最適化された複数のモデルバリアントが含まれています。ベースとなる事前訓練モデル、指示に従うための「指示調整」モデル、そして有害な出力を最小限に抑えるための「安全調整」モデルがあります。この選択は、AIコミュニティにおいてようやく能力と倫理的配慮の重要性が認識され始めていることを反映しています。
Salesforceのオープンソース化の決定は、マルチモーダルAI領域での革新を大いに促進することが期待されています。質の高いモデルやデータセットへのアクセスを研究者や開発者に提供することで、より広範なコラボレーションと進展の機会を創出し、一部のテックジャイアントの閉鎖的な戦略と対照的です。
しかし、影響力のあるモデルのリリースは、先進的なAIシステムに伴う潜在的なリスクや社会的影響についての重要な疑問を提起します。Salesforceは安全調整を取り入れてこれらの懸念に対処していますが、一般にアクセス可能な高度なAIモデルの広がる影響は、技術コミュニティ内外での議論を引き続き刺激しています。
xGen-MMモデルは、Salesforceによってキュレーションされた膨大なデータセットで訓練されており、「MINT-1T」という呼ばれるトリリオン・トークンの交互画像とテキストデータセットが含まれています。さらに、光学文字認識や視覚的グラウンディングをターゲットとした新しいデータセットも開発され、AIシステムが自然に視覚環境と相互作用するために不可欠です。
AI技術がますます普及する中で、Salesforceのオープンソースイニシアティブは、研究者がこの強力なシステムの理解と開発を高めるための重要なツールを提供します。この動きは、透明性が欠如しているとしばしば批判される分野において基準を確立し、他のテック企業が自社のAI研究でも同様の取り組みを採用することを促進する可能性があります。
AI競争が激化する中で、Salesforceのオープン戦略は重要な差別化要因となる可能性があります。自社のモデルを囲んで協力的な環境を促進することで、より速い革新を促進し、研究コミュニティとの良好な関係を築くことが期待されます。しかし、競争の激しい企業AIソリューションの領域においてこのアプローチがどのように奏功するかは、今後の観察を要します。
xGen-MMのコード、モデル、およびデータセットはSalesforceのGitHubリポジトリで入手可能で、プロジェクトのウェブサイトにはさらに多くのリソースが近日中に公開される予定です。研究者や開発者がこれらのモデルに関与することで、SalesforceのマルチモーダルAIへの貢献の真の影響が、今後数ヶ月および数年を通じて明らかになっていくでしょう。