Stable Diffusion,作为Midjourney和DALL-E等AI图像生成器的开源替代品,推出了3.5版本。此次更新回应了对之前3.0版本的批评,后者遭到了广泛的不满。Stability AI声称,3.5模型在提示遵从性上有所改进,并在图像质量上能与更大模型竞争。此外,该模型能够在没有明确提示的情况下生成多样的风格、肤色和特征。
新版本分为三个不同的型号:
1. Stable Diffusion 3.5大模型Large:这是最强大的版本,具有最高的图像质量,并在提示遵从性方面处于行业领先地位。Stability AI表示,适合以1兆像素的分辨率进行专业使用。
2. Stable Diffusion 3.5大模型Turbo:这一精简版的大模型优先考虑效率,且能在仅四个步骤中生成高质量的图像,保持优异的提示遵从性。
3. Stable Diffusion 3.5中型Medium:该模型为消费者硬件设计,平衡了质量与可接入性,支持生成0.25至2兆像素的图像。然而,3.5中型将在10月29日后发布,而前两个模型目前已可使用。
此次3.5版本的发布,旨在纠正6月发布的3.0中型模型的问题,当时该模型在简单提示下产生了荒诞不堪的图像。Stability AI承认,之前的版本“未能完全满足我们的标准和社区的期望”,这也使得当前版本更加重视提示遵从性。
此外,3.5系列加入了新的过滤器,更好地展现人类多样性,能够在不进行大量提示的情况下展示各种肤色和特征。这样的提升旨在避免过去的代表性失误,例如,谷歌早前因Gemini模型生成历史不准确图像而引发的争议,导致其推迟了六个月的人类生成整合。
随着这些改进,我们期待Stable Diffusion 3.5能够有效捕捉人类多样性和历史背景的细节,提升用户的使用体验。