阿里巴巴发布Tora AI视频生成框架：用简单绘图控制对象运动路径

Home AI News CN 阿里巴巴发布Tora AI视频生成框架：用简单绘图控制对象运动路径

近日，阿里巴巴团队推出了一个创新的AI视频生成框架——Tora。该框架融合了文本、视觉和轨迹信息，并采用了先进的轨迹引导扩散变换器（DiT）技术。这种创新大大提升了视频内容的生成和控制，赋予了视觉特效和虚拟现实等领域前所未有的创作自由。

Tora框架由三个主要组件组成：轨迹提取器（TE）、时空DiT模块和运动引导融合模块（MGF）。TE使用先进的3D视频压缩网络，有效编码输入的轨迹数据为分层的时空运动补丁，为后续视频生成提供了坚实的基础。同时，MGF将这些运动补丁与DiT模块结合，确保生成的视频与预设轨迹紧密匹配，从而实现流畅自然的运动效果。

值得注意的是，Tora框架支持生成最长达204帧、分辨率为720P的视频。用户可以精确控制视频的时长、宽高比和分辨率，满足不同的创作需求。实验结果表明，Tora不仅保持高运动保真度，还能够仔细模拟物理运动法则，提供更真实的视觉体验。

阿里巴巴团队将Tora比作视频生成的“魔法画笔”，使用户能够轻松操控物体运动轨迹，轻松创造复杂视频。这一设计理念大大降低了视频制作的门槛，赋予视觉特效艺术家、广告商和虚拟现实开发者等专业人士强大的创作工具，潜力无限，助力他们在各自领域的创新。

随着Tora的正式推出，阿里巴巴团队再次展示了其在人工智能领域的创新能力。随着技术的不断发展，Tora有望为全球视频创作与分发带来更多惊喜和变革。

OpenAI联合创始人约翰·舒尔曼离职前往AI初创公司Anthropic的原因与洞察

谷歌与Character.AI建立重大语言模型合作，吸引顶级人才