生成式AI艺术迅速成为新技术中最引人入胜和最受欢迎的应用之一,吸引了数百万用户涌向像Stable Diffusion和Midjourney这样的平台。OpenAI最近将其DALL-E 3图像生成模型整合入广泛使用的ChatGPT服务,使得生成图像变得更加简单。用户只需输入描述,AI算法便能在瞬间将想法转化为视觉艺术。
然而,在快节奏的现代生活中,即使等待几秒钟的图像生成也显得有些繁琐。本周,在线AI艺术社区热议一种名为LCM-LoRA的创新机器学习技术(潜在一致性模型-低秩适应),该技术由清华大学的研究者和AI代码共享平台HuggingFace开发,使实时生成AI艺术成为可能。
这在实际中意味着什么呢?您可以在X和LinkedIn上查看AI艺术家们分享的视频,看到它的实际应用。
借助LCM-LoRA,用户现在可以通过简单的形状草图或火柴人图画及描述性文字,即时生成新的艺术作品,应用如Krea.AI和Fal.AI能迅速响应。用户在数字画布上操作形状与绘图时,图像几乎可以即时更新。
您可以在Fal.AI上亲自尝试(如果网站在高流量情况下仍能稳定访问)。
LCM-LoRA不仅适用于2D图像,还能处理3D资产,使艺术家能快速创建沉浸式环境,广泛应用于增强现实(AR)、虚拟现实(VR)、视频游戏,甚至电影制作——极大地加速了创作过程,降低了成本。
LinkedIn上一位创业公司的创始人及前谷歌AI工程师表示:“一切将发生改变”,这种观点在AI艺术社区引起了广泛共鸣。另一位X用户评论道:“全新一代生成式AI即将揭幕。”沃顿商学院的Ethan Mollick教授也表示:“我们即将体验到许多新的用户体验。”
什么是LCM-LoRA,如何运作?
LCM-LoRA在应用中的早期演示非常引人注目,标志着生成式AI在视觉艺术领域的一个潜在转折点。那么,LCM-LoRA背后的技术创新是什么呢?研究者们称,LCM-LoRA是一个“通用的无训练加速模块”,可集成到各种精细调整的Stable Diffusion模型中。
简单来说,这是一种算法,可以加速将文本或图像转化为新的AI生成艺术作品的过程,利用流行的开源Stable Diffusion模型及其修改版。
LCM-LoRA通过减少AI模型为将源文本或图像转化为高质量图像所需的“采样步骤”来实现这一点。这意味着,它使Stable Diffusion模型能够以更少的计算资源更快地操作,从而实时输出引人注目的成果。
LCM-LoRA的“通用”特性使其与依赖于Stable Diffusion的不同应用兼容。然而,是否可以将其适配于OpenAI的DALL-E 3或Midjourney等专有模型还有待观察。
我们已联系LCM-LoRA论文的作者之一,寻求更多见解,并将在获得更多信息时更新本文。