Stability AI通过SDXL Turbo升级提升文本到图像生成能力

Home AI News CN Stability AI通过SDXL Turbo升级提升文本到图像生成能力

Updated on 十一月 29 2023

通过人工智能从简单的文本提示生成图像从未如此迅速，这得益于Stability AI的突破性进展。这家公司创建的Stable Diffusion模型在用户中广受欢迎，本周该公司宣布推出SDXL Turbo模式，使用户能够实时生成图像，彻底消除等待AI处理提示的时间。过去需要50个生成步骤的过程，如今只需一步，大幅缩短计算时间。在A100 GPU上，SDXL Turbo只需207毫秒便可生成512×512的图像，标志着相较于早期的AI扩散模型的重大进步。

SDXL Turbo的体验类似于现代搜索引擎中的预测输入功能，但将这种速度应用于实时图像生成。令人惊讶的是，这一加速并非源于先进的硬件，而是由一种名为对抗性扩散蒸馏（ADD）的新技术驱动。Stability AI的创始人兼首席执行官Emad Mostaque在X（前Twitter）上解释道：“我们采用新的对抗性蒸馏扩散（ADD）方法，实现了一步生成的Stable Diffusion XL，结果速度大幅提升，虽然多样性略有降低，但未来会有更多变体可供选择。”

SDXL - 更加迅速

SDXL基础模型于7月推出，Mostaque预计这一模型将成为未来模型的坚实基础。Stable Diffusion与OpenAI的DALL-E和Midjourney等其他文本生成图像模型展开竞争。SDXL基础模型的一项主要特点是ControlNets，增强了对图像构图的控制能力。凭借35亿个参数，SDXL在理解更广泛概念的同时提高了准确性，而SDXL Turbo在此基础上进一步提升了生成速度。

Stability AI正遵循生成式AI发展的新趋势：首先生成精确模型，然后对其进行性能优化，类似于OpenAI在GPT-3.5 Turbo和GPT-4 Turbo中所采取的策略。随着生成式AI模型的加速发展，人们普遍担忧质量与速度之间的权衡。然而，SDXL Turbo在这一方面表现出色，生成的高细节图像几乎没有牺牲质量。

什么是对抗性扩散蒸馏（ADD）？

生成对抗网络（GAN）在AI中因其构建快速深度学习神经网络而广为人知。而传统扩散模型则采用更为渐进的过程，速度较慢。ADD将两种方法的优点结合起来。根据ADD研究报告，“本研究的目标是将扩散模型的优越样本质量与GAN的固有速度相结合。”

Stability AI研发的ADD方法旨在超越其他图像生成AI技术，标志着在基础模型上实现一步、实时图像合成的首个技术。通过将对抗性训练与评分蒸馏相结合，ADD利用了预训练图像扩散模型中的知识。其主要优势在于快速采样，同时保持高保真度和迭代优化能力。研究表明，ADD在1-4个步骤内生成图像的表现显著优于GAN、潜在一致性模型和其他扩散蒸馏方法。

目前，Stability AI尚未认为SDXL Turbo模型已准备好用于商业应用，但该模型已在公司Clipdrop网络服务中提供预览。初步测试显示出快速生成图像的能力，尽管Clipdrop测试版可能缺乏一些高级选项来区分图像风格。该代码和模型权重也已在Hugging Face上以非商业研究许可的形式提供。

亚马逊AWS发布雄心勃勃的生成AI新动态，欲与微软竞争

亚马逊推出Titan AI：新图像生成工具的全面指南

Most people like

AI Yes or No Tarot

47.3K

传统塔罗实践与现代技术的结合在当今数字化时代，塔罗牌的神秘艺术正与现代科技相遇，形成一种全新的体验。传统的塔罗占卜方法与现代应用程序、在线占卜平台的结合，让这一古老的智慧更加普及和易于接触。借助技术，用户不仅能随时随地进行占卜，还能深入了解塔罗牌的丰富背景和解读技巧。这种创新的融合不仅保留了传统的魅力，同时也为新一代追随者打开了一扇发现自我的大门。

塔罗牌 AI聊天机器人