Stable Diffusion 3.0が次世代テキストから画像へのAI生成のための革新的な拡散アーキテクチャを発表

Home AIニュース Stable Diffusion 3.0が次世代テキストから画像へのAI生成のための革新的な拡散アーキテクチャを発表

Stability AIは、次世代のテキストから画像を生成するAIモデル「Stable Diffusion 3.0」の早期プレビューを公開しました。このアップデートは、前年間の繰り返しの改良を経たもので、画像生成の高度化と品質向上を示しています。7月の前回のSDXLリリースではベースモデルが大幅に向上し、今回のバージョンではさらなる進化を目指しています。

Stable Diffusion 3.0は、特に複数のテーマを持つプロンプトからの画像生成において、画像の質と性能の向上に重点を置いています。特に注目すべき改善点はタイポグラフィで、生成された画像内での正確で一貫したスペルを提供します。この進歩は重要で、DALL-E 3、Ideogram、Midjourneyといった競合他社も、最近のアップデートで同様の機能を重視しています。Stability AIは、800Mから8Bのパラメータまで、さまざまなモデルサイズでStable Diffusion 3.0を提供しています。

このアップデートは、単なるモデルの改善ではなく、新しいアーキテクチャに基づく完全な見直しを意味します。「Stable Diffusion 3は拡散トランスフォーマーであり、OpenAIの最近のSoraモデルと類似の新しいアーキテクチャです」と、Stability AIのCEOエマド・モスタクは述べています。「これはオリジナルのStable Diffusionの真の後継です。」

拡散トランスフォーマーへの移行とフローマッチングは、画像生成の新時代を告げています。Stability AIはさまざまな技術を試しており、最近では性能と精度を向上させるためにWürstchenアーキテクチャを利用したStable Cascadeをプレビューしています。一方、Stable Diffusion 3.0では拡散トランスフォーマーを採用しており、これは前モデルからの大きな変化です。

モスタクは「以前のStable Diffusionにはトランスフォーマーがありませんでした」と説明します。このアーキテクチャは、多くの生成AIの進展の基盤として重要ですが、これまで主にテキストモデルに用いられ、拡散モデルは画像生成で優位を占めていました。新しく導入されたDiffusion Transformers（DiTs）は、計算リソースの最適化とパフォーマンス向上を図っており、従来のU-Netバックボーンを潜在画像パッチで動作するトランスフォーマーに置き換えています。

また、Stable Diffusion 3.0は、複雑なデータ分布を効果的にモデル化できる新しいトレーニング手法であるフローマッチングの恩恵も受けています。研究者たちは、最適な輸送経路を用いたConditional Flow Matching（CFM）を適用することで、従来の拡散法と比較して、トレーニングのスピード向上、サンプリングの効率化、およびパフォーマンスの向上が実現できるとしています。

このモデルはタイポグラフィの明確な進展を示しており、生成される画像の中でより一貫した物語やスタイルの選択が可能です。「この改善は、トランスフォーマーアーキテクチャと追加のテキストエンコーダーのおかげです」とモスタクは述べました。「完全な文が可能になり、一貫したスタイルも実現しています。」

Stable Diffusion 3.0は初めはテキストから画像へのAIとして紹介されていますが、これは未来の革新の基盤として機能します。Stability AIは今後数か月のうちに3Dおよび動画生成機能の拡充を計画しています。「私たちは、多様なニーズに応じて利用・適応できるオープンモデルを作っています」とモスタクは締めくくりました。「このさまざまなサイズのモデル群は、次世代の視覚ソリューション開発の基盤となり、動画、3D、さらにはそれ以上の領域を含むことでしょう。」

Google、Geminiの「人生成」機能を「ウェイク」問題による複数の不正確さで一時停止

生体情報を狙ったハイスト：攻撃者が個人データを盗み、被害者の銀行口座に不正アクセス

Most people like

Morpher AI

276.7K

暗号通貨、株式、商品、外国為替などについてのリアルタイム市場分析で、瞬時に洞察を得ましょう。今日の迅速な金融環境で情報を把握し、より賢明な投資判断を下しましょう。

取引プラットフォーム AI Trading Bot Assistant

iAsk.Ai

4.4M

iAsk.Aiのご紹介：ユーザーデータを保存せず、プライバシーを守りながら即座に正確な回答を提供する無料のAI検索エンジンです。

AI検索エンジン AI Chatbot

AHelp

91.4K

AIツールでライティング効率を向上させ、学業の卓越性を達成しましょう。

AIツール AI Detector

1PX.AI

5.5K

最先端のAI写真およびアバター生成プラットフォームを紹介します。ここでは革新と創造性が融合しています！最先端の技術を駆使し、ユーザーは驚くようなパーソナライズされた画像やアバターを簡単に作成できます。オンラインプレゼンスを強化したり、ユニークなソーシャルメディアグラフィックをデザインしたり、単に創造力を探求したりするために、私たちのプラットフォームはあなたのアイデアを数分で高品質なビジュアルに変えます。可能性の世界に飛び込み、あなたのスタイルに合わせた魅力的な写真やアバターを生成するのがいかに簡単かを体験してください！

AI写真生成ツール AI Photo & Image Generator

Find AI tools in YBX