ステーブルディフュージョン 3.5の登場
AI画像生成ツールのオープンソースの代替品であるステーブルディフュージョン(Stable Diffusion)が、バージョン3.5を発表しました。この最新アップデートは、前回のステーブルディフュージョン3ミディアム(Stable Diffusion 3 Medium)に対する批判に応えたものです。この以前のバージョンは、広範な不満を招きましたが、ステイビリティAIは3.5モデルがプロンプトへの適合性が向上し、画像品質においてもより大規模なモデルと競争できると主張しています。また、明示的なプロンプトなしで多様なスタイル、肌の色、特徴を生成できるように設計されています。
新モデルは3つのバージョンで提供されています:
1. ステーブルディフュージョン 3.5 ラージ:最もパワフルなバリアントで、最高の画像品質を提供し、業界の中でプロンプトへの適合性が最も高いとされています。プロフェッショナル用途に最適で、1MPの解像度をサポートしています。
2. ステーブルディフュージョン 3.5 ラージ ターボ:ラージモデルの効率性を重視したバージョンで、高品質な画像をわずか4ステップで生成しながら、優れたプロンプトの適合性を維持します。
3. ステーブルディフュージョン 3.5 ミディアム:一般消費者向けに設計されたモデルで、品質とアクセスのバランスが取れています。0.25MPから2MPの画像生成が可能ですが、このバージョンは10月29日まで利用できません。前述の2つのモデルは現在使用可能です。
ステーブルディフュージョン3ミディアムの問題の多いリリースからわずか数ヶ月後、3.5が登場しました。前回のモデルは、単純なプロンプトに対して不条理な画像を生成したため、ステイビリティAIは「以前のバージョンは我々の基準やコミュニティの期待を完全に満たしていなかった」と認めており、今回はプロンプト適合性に強く焦点を当てています。
さらに、3.5Siriーズには人間の多様性をよりよく表現する新しいフィルターが追加されています。多様な肌の色や特徴を表現し、過去の代表性に関する問題(たとえば、GoogleのGeminiモデルによる歴史的に不正確な画像生成)を受けての改善です。この事件の反発を受けて、Googleは人間の生成との統合を6ヶ月間遅らせました。
これらの改善により、ステーブルディフュージョン3.5が人間の多様性や歴史的文脈の微妙なニュアンスを効果的に捉えられることを期待しています。