Stability AI、新たなStable Diffusion Mediumで画像生成能力を強化

より大きいことが必ずしも良いとは限りません。特に、一部のハードウェアで生成AIモデルを運用する場合はなおさらです。この原則は、Stability AIの最新作「Stable Diffusion 3 Medium」にも当てはまります。Stability AIのフラッグシップモデルであるStable Diffusionは、テキストから画像への生成を得意としています。Stable Diffusion 3のプレビューは2月22日に公開され、一般的なAPIへのアクセスは4月17日から開始されました。

新しいStable Diffusion Mediumは、コンシューマ向けのGPUで効率的に動作する、小型でありながら高機能なモデルとして設計されています。これにより、限られたリソースのユーザーや組織にとって、効果的な画像生成技術として非常に魅力的な選択肢となります。Stable Diffusion Mediumは、APIを通じてテスト可能で、Discord上のStable Artisanサービスでも利用できます。また、商用利用以外の目的でHugging Faceからモデルのウェイトを取得することも可能です。

Stable Diffusion Mediumの導入に伴い、最初のリリースは「Stable Diffusion 3 (SD3) Large」として名称が変更されました。このモデルは80億のパラメータを有しています。一方、SD3 Mediumは20億のパラメータです。Stability AIの共同CEO、クリスチャン・ラフォルテ氏は「SD3 Largeとは異なり、SD3 Mediumはコンシューマハードウェアで効率的に動作する小型のものです」と述べています。

Stable Diffusion Mediumを実行するには、わずか5GBのGPU VRAMが必要です。これにより、さまざまなコンシューマPCやハイエンドのノートパソコンで動作させることが可能になります。この要件は最小限ですが、Stability AIは最適なパフォーマンスを得るために16GBのGPU VRAMを推奨しています。これも比較的現実的な要件ですが、一部のノートパソコンでは課題となる場合があります。

小型化にもかかわらず、SD3 MediumはSD3 Largeに匹敵する印象的な機能を備えています。ラフォルテ氏は、SD3 Mediumがフォトリアリズム、プロンプトの遵守、タイポグラフィ、リソース効率、ファインチューニングにおいて優れていると強調しています。「SD3 Mediumは、今日ユーザーに愛されているSD3 Large APIと同等の能力を持っています」と彼は述べています。

SD3から期待できる画像は、従来のモデルよりも詳細なメガピクセルあたりの情報を提供する16チャネルVAE(変分オートエンコーダー)によって、高いリアリズムを実現しています。SD3は、画像構成の空間認識を含む自然言語プロンプトへの優れた遵守も示しています。

モデルのファインチューニング機能により、SD3 Mediumは高度に適応可能で、ファインチューニングデータセットからの詳細な情報を効率よくキャッチできます。また、改良されたタイポグラフィもSD3 Mediumに引き継がれた重要な強化点です。

SD3 Mediumの際立った特徴はリソース効率です。「20億パラメータのモデルの小さなサイズとモジュール性は、性能を損なうことなく計算要件を削減します」とラフォルテ氏は述べています。「これにより、リソース管理が重要な環境においてSD3 Mediumは理想的な選択肢となるのです。」

Most people like

Find AI tools in YBX