Stable Diffusion 3.0が次世代テキストから画像へのAI生成のための革新的な拡散アーキテクチャを発表

Stability AIは、次世代のテキストから画像を生成するAIモデル「Stable Diffusion 3.0」の早期プレビューを公開しました。このアップデートは、前年間の繰り返しの改良を経たもので、画像生成の高度化と品質向上を示しています。7月の前回のSDXLリリースではベースモデルが大幅に向上し、今回のバージョンではさらなる進化を目指しています。

Stable Diffusion 3.0は、特に複数のテーマを持つプロンプトからの画像生成において、画像の質と性能の向上に重点を置いています。特に注目すべき改善点はタイポグラフィで、生成された画像内での正確で一貫したスペルを提供します。この進歩は重要で、DALL-E 3、Ideogram、Midjourneyといった競合他社も、最近のアップデートで同様の機能を重視しています。Stability AIは、800Mから8Bのパラメータまで、さまざまなモデルサイズでStable Diffusion 3.0を提供しています。

このアップデートは、単なるモデルの改善ではなく、新しいアーキテクチャに基づく完全な見直しを意味します。「Stable Diffusion 3は拡散トランスフォーマーであり、OpenAIの最近のSoraモデルと類似の新しいアーキテクチャです」と、Stability AIのCEOエマド・モスタクは述べています。「これはオリジナルのStable Diffusionの真の後継です。」

拡散トランスフォーマーへの移行とフローマッチングは、画像生成の新時代を告げています。Stability AIはさまざまな技術を試しており、最近では性能と精度を向上させるためにWürstchenアーキテクチャを利用したStable Cascadeをプレビューしています。一方、Stable Diffusion 3.0では拡散トランスフォーマーを採用しており、これは前モデルからの大きな変化です。

モスタクは「以前のStable Diffusionにはトランスフォーマーがありませんでした」と説明します。このアーキテクチャは、多くの生成AIの進展の基盤として重要ですが、これまで主にテキストモデルに用いられ、拡散モデルは画像生成で優位を占めていました。新しく導入されたDiffusion Transformers(DiTs)は、計算リソースの最適化とパフォーマンス向上を図っており、従来のU-Netバックボーンを潜在画像パッチで動作するトランスフォーマーに置き換えています。

また、Stable Diffusion 3.0は、複雑なデータ分布を効果的にモデル化できる新しいトレーニング手法であるフローマッチングの恩恵も受けています。研究者たちは、最適な輸送経路を用いたConditional Flow Matching(CFM)を適用することで、従来の拡散法と比較して、トレーニングのスピード向上、サンプリングの効率化、およびパフォーマンスの向上が実現できるとしています。

このモデルはタイポグラフィの明確な進展を示しており、生成される画像の中でより一貫した物語やスタイルの選択が可能です。「この改善は、トランスフォーマーアーキテクチャと追加のテキストエンコーダーのおかげです」とモスタクは述べました。「完全な文が可能になり、一貫したスタイルも実現しています。」

Stable Diffusion 3.0は初めはテキストから画像へのAIとして紹介されていますが、これは未来の革新の基盤として機能します。Stability AIは今後数か月のうちに3Dおよび動画生成機能の拡充を計画しています。「私たちは、多様なニーズに応じて利用・適応できるオープンモデルを作っています」とモスタクは締めくくりました。「このさまざまなサイズのモデル群は、次世代の視覚ソリューション開発の基盤となり、動画、3D、さらにはそれ以上の領域を含むことでしょう。」

Most people like

Find AI tools in YBX