近日,阿里巴巴团队推出了一个创新的AI视频生成框架——Tora。该框架融合了文本、视觉和轨迹信息,并采用了先进的轨迹引导扩散变换器(DiT)技术。这种创新大大提升了视频内容的生成和控制,赋予了视觉特效和虚拟现实等领域前所未有的创作自由。
Tora框架由三个主要组件组成:轨迹提取器(TE)、时空DiT模块和运动引导融合模块(MGF)。TE使用先进的3D视频压缩网络,有效编码输入的轨迹数据为分层的时空运动补丁,为后续视频生成提供了坚实的基础。同时,MGF将这些运动补丁与DiT模块结合,确保生成的视频与预设轨迹紧密匹配,从而实现流畅自然的运动效果。
值得注意的是,Tora框架支持生成最长达204帧、分辨率为720P的视频。用户可以精确控制视频的时长、宽高比和分辨率,满足不同的创作需求。实验结果表明,Tora不仅保持高运动保真度,还能够仔细模拟物理运动法则,提供更真实的视觉体验。
阿里巴巴团队将Tora比作视频生成的“魔法画笔”,使用户能够轻松操控物体运动轨迹,轻松创造复杂视频。这一设计理念大大降低了视频制作的门槛,赋予视觉特效艺术家、广告商和虚拟现实开发者等专业人士强大的创作工具,潜力无限,助力他们在各自领域的创新。
随着Tora的正式推出,阿里巴巴团队再次展示了其在人工智能领域的创新能力。随着技术的不断发展,Tora有望为全球视频创作与分发带来更多惊喜和变革。