推出StreamingT2V:突破性的AI视频生成技术发布,提供2分钟免费开源长视频

最近,由Picsart AI研究团队等开发的AI视频模型StreamingT2V引起了业界的广泛关注。该模型在视频生成方面树立了新的标杆,能够生成最长达两分钟(1200帧)的视频。它在技术上超越了备受推崇的Sora模型,并凭借其免费、开源的特性,振兴了开源生态系统。

StreamingT2V的发布标志着视频生成领域的一次重大突破。到目前为止,大多数模型仅能生成几秒钟到一分钟的视频,而Sora最出色的是60秒的生成能力。StreamingT2V不仅将视频生成时间延长至两分钟,还具有几乎无限制的时长潜力,为视频创作开辟了前所未有的可能性。

这种成功归功于其先进的自回归架构。StreamingT2V旨在生成丰富、动态的长视频,同时保持时间一致性和帧级高质量影像。通过引入条件注意力模块(CAM)和外观保留模块(APM),该模型有效解决了现有文本到视频扩散模型在生成较长时长视频时出现的质量下降和表现僵化的问题。

CAM作为短期记忆组件,通过注意力机制微调视频生成,确保视频片段之间的自然过渡。相比之下,APM作为长期记忆,从初始视频片段中提取高级场景和物体特征,以维持整个生成过程的一致性。此外,StreamingT2V还采用了高分辨率文本生成技术,以进一步提升视频质量。

目前,StreamingT2V已在GitHub上开源,并在Hugging Face平台上提供免费试用。尽管由于服务器负载用户可能会遇到一些等待时间,但输入文本和图像提示生成视频的过程仍然令人兴奋。Hugging Face平台展示了多个成功的示例,展示了StreamingT2V在视频生成上的惊人潜力。

StreamingT2V的推出不仅意味着视频制作技术的一次飞跃,还为开源社区提供了一个强大的工具,促进相关技术的持续发展。随着像StreamingT2V这样的创新不断演进并获得越来越多的关注,我们可能会在电影制作、游戏开发和虚拟世界创建等多个领域看到高质量、长时长AI生成视频的日益普及。开源社区将在这一技术演进中发挥至关重要的作用,推动进一步的进步与发展。

Most people like

Find AI tools in YBX