在使用普通硬件运行生成性人工智能模型时,"更大不一定更好" 这一原则得以强调,这正是Stability AI最新发布的Stable Diffusion 3 Medium的核心理念。作为Stability AI的旗舰模型,Stable Diffusion在文本到图像生成方面表现卓越。Stable Diffusion 3的预览于2月22日发布,而公共API访问则于4月17日开启。
新的Stable Diffusion Medium旨在成为一个更小巧但功能强大的模型,可以在消费级GPU上高效运行。这使得Stable Diffusion 3成为那些资源有限但希望获得高效图像生成技术的个人和组织的理想选择。
用户可以通过API和Discord上的Stable Artisan服务测试Stable Diffusion Medium。此外,模型权重也可以在Hugging Face上用于非商业用途。
随着Stable Diffusion Medium的推出,最初的版本现在被称为Stable Diffusion 3 (SD3) Large,拥有80亿个参数。相比之下,SD3 Medium只有20亿个参数。Stability AI的联席首席执行官Christian Laforte表示:“与SD3 Large不同,SD3 Medium更小,能够在消费者硬件上高效运行。”
要运行Stable Diffusion Medium,用户只需5GB的GPU VRAM,这使其能够在多种消费级PC和高端笔记本电脑上运行。虽然这是最低配置,Stability AI推荐使用16GB的GPU VRAM以获得最佳性能,虽然这一要求相对合理,但对于某些笔记本用户来说仍可能具有挑战性。
尽管体积较小,SD3 Medium仍具备与SD3 Large相媲美的卓越功能。Laforte强调,SD3 Medium在真实感、提示遵循、排版、资源效率和微调方面表现出色。“SD3 Medium与SD3 Large API的能力相匹配,用户会感到满意。”
得益于16通道变分自编码器(VAE),SD3能够生成高度真实的图像输出,提供的每像素细节优于以往模型。SD3在自然语言提示的遵循性方面也表现出色,并具备良好的空间意识能力。
该模型的微调能力使其在捕捉微调数据集细节方面高度灵活和高效。另外,SD3在排版方面的改善也得以延续到SD3 Medium。
SD3 Medium的一大亮点是其资源效率。Laforte指出:“这个拥有20亿参数的小型化和模块化模型减少了计算需求,同时保持了性能。这使得SD3 Medium成为资源管理至关重要环境中的理想选择。”