AIを用いてシンプルなテキストプロンプトから画像を生成する速度が、Stability AIが開発した広く使用されているStable Diffusionモデルの進化により、これまで以上に向上しました。今週発表されたSDXL Turboモードにより、ユーザーはリアルタイムで画像を生成できるようになり、プロンプト処理の待機時間が不要になりました。これまで50ステップかかっていた生成が、わずか1ステップで済むため、計算時間が劇的に短縮されています。SDXL Turboは、A100 GPU上でわずか207ミリ秒で512×512の画像を生成できることから、従来のAI拡散モデルに対する大きな進歩を示しています。
SDXL Turboの体験は、現代の検索エンジンで見られる予測入力機能に似ていますが、それを画像生成にリアルタイムで応用しています。この加速は高度なハードウェアによるものではなく、Adversarial Diffusion Distillation(ADD)という新しい手法によって実現されています。Stability AIの創設者兼CEOであるエマド・モスタク氏はX(旧Twitter)で「One step Stable Diffusion XLは、我々の新しいADDアプローチを用いることで多様性は減りますが、はるかに早い結果を提供します。将来的にはより多くのバリエーションが期待されます」と説明しています。
SDXL – より迅速に
SDXL基本モデルは7月に導入され、モスタク氏は将来のモデルの強固な基盤になると予測しています。Stable Diffusionは、OpenAIのDALL-EやMidjourneyなどの他のテキストから画像へのモデルと競合しており、SDXL基本モデルの主要機能としてControlNetsが画像構図の制御を強化しています。35億パラメータを持つSDXLは、より多様な概念を理解することで精度が向上しています。SDXL Turboはこれらの革新を基に、生成速度をさらに向上させています。
Stability AIは、生成AIの開発におけるトレンドに従い、まずは精度の高いモデルを作成し、その後性能を最適化するアプローチをとっています。これは、OpenAIがGPT-3.5 TurboやGPT-4 Turboで採用している方法と類似しています。
生成AIモデルの加速に伴い、品質と速度のトレードオフが懸念されることがありますが、SDXL Turboは最小限の妥協で高精細な画像を提供し、元のモデルとほぼ同様の品質を維持しています。
Adversarial Diffusion Distillation(ADD)とは?
Generative Adversarial Network(GAN)は、高速な深層学習ニューラルネットワークを構築するために広く知られています。一方、従来の拡散モデルはより徐々にプロセスを進めるため、時間がかかる傾向があります。ADDは、両方の利点を結びつける手法です。
ADDに関する研究報告によれば、「この研究の目的は、拡散モデル(DM)の優れたサンプル品質を、GANの内在的な速度と組み合わせることです。」Stability AIの研究者によって開発されたADDメソッドは、画像生成のために他のAI手法を凌駕し、基盤モデルを用いた単一ステップのリアルタイム画像合成を初めて実現しました。敵対的訓練とスコア蒸留を組み合わせることで、ADDは事前訓練された画像拡散モデルの知識を活用し、高忠実度を保持しつつ迅速なサンプリングと反復的な洗練が可能です。
実験では、ADDが1~4ステップで画像を生成する限りにおいて、GANやLatent Consistency Models、他の拡散蒸留手法よりも大幅に優れていることが示されています。
現在、Stability AIはSDXL Turboモデルを商業利用には準備が整っていないと見なしていますが、同社のClipdropウェブサービス上でプレビュー利用が可能です。初期テストでは迅速な画像生成が確認されていますが、Clipdropベータ版では画像スタイルの差別化のための高度なオプションが欠けている可能性があります。コードとモデルの重みは、非商業的な研究ライセンスの下でHugging Faceでも公開されています。