Stability AI通过SDXL Turbo升级提升文本到图像生成能力

通过人工智能从简单的文本提示生成图像从未如此迅速,这得益于Stability AI的突破性进展。这家公司创建的Stable Diffusion模型在用户中广受欢迎,本周该公司宣布推出SDXL Turbo模式,使用户能够实时生成图像,彻底消除等待AI处理提示的时间。过去需要50个生成步骤的过程,如今只需一步,大幅缩短计算时间。在A100 GPU上,SDXL Turbo只需207毫秒便可生成512×512的图像,标志着相较于早期的AI扩散模型的重大进步。

SDXL Turbo的体验类似于现代搜索引擎中的预测输入功能,但将这种速度应用于实时图像生成。令人惊讶的是,这一加速并非源于先进的硬件,而是由一种名为对抗性扩散蒸馏(ADD)的新技术驱动。Stability AI的创始人兼首席执行官Emad Mostaque在X(前Twitter)上解释道:“我们采用新的对抗性蒸馏扩散(ADD)方法,实现了一步生成的Stable Diffusion XL,结果速度大幅提升,虽然多样性略有降低,但未来会有更多变体可供选择。”

SDXL - 更加迅速

SDXL基础模型于7月推出,Mostaque预计这一模型将成为未来模型的坚实基础。Stable Diffusion与OpenAI的DALL-E和Midjourney等其他文本生成图像模型展开竞争。SDXL基础模型的一项主要特点是ControlNets,增强了对图像构图的控制能力。凭借35亿个参数,SDXL在理解更广泛概念的同时提高了准确性,而SDXL Turbo在此基础上进一步提升了生成速度。

Stability AI正遵循生成式AI发展的新趋势:首先生成精确模型,然后对其进行性能优化,类似于OpenAI在GPT-3.5 Turbo和GPT-4 Turbo中所采取的策略。随着生成式AI模型的加速发展,人们普遍担忧质量与速度之间的权衡。然而,SDXL Turbo在这一方面表现出色,生成的高细节图像几乎没有牺牲质量。

什么是对抗性扩散蒸馏(ADD)?

生成对抗网络(GAN)在AI中因其构建快速深度学习神经网络而广为人知。而传统扩散模型则采用更为渐进的过程,速度较慢。ADD将两种方法的优点结合起来。根据ADD研究报告,“本研究的目标是将扩散模型的优越样本质量与GAN的固有速度相结合。”

Stability AI研发的ADD方法旨在超越其他图像生成AI技术,标志着在基础模型上实现一步、实时图像合成的首个技术。通过将对抗性训练与评分蒸馏相结合,ADD利用了预训练图像扩散模型中的知识。其主要优势在于快速采样,同时保持高保真度和迭代优化能力。研究表明,ADD在1-4个步骤内生成图像的表现显著优于GAN、潜在一致性模型和其他扩散蒸馏方法。

目前,Stability AI尚未认为SDXL Turbo模型已准备好用于商业应用,但该模型已在公司Clipdrop网络服务中提供预览。初步测试显示出快速生成图像的能力,尽管Clipdrop测试版可能缺乏一些高级选项来区分图像风格。该代码和模型权重也已在Hugging Face上以非商业研究许可的形式提供。

Most people like

Find AI tools in YBX