自从OpenAI在今年早些时候推出其Sora生成式AI视频创作模型以来,鲜有竞争者能够匹敌其真实感和质量,直到现在。
在最近举行的年度I/O开发者大会上,谷歌宣布推出Veo,这是其著名的DeepMind部门开发的全新生成式AI视频模型。
谷歌表示,Veo能够生成“高质量的1080p视频片段,时长超过60秒”。根据DeepMind在其X平台上的一则帖子,Veo可以处理多种电影风格,从照片级真实感和超现实主义到动画。
在产品页面上,谷歌指出,Veo的目标是“让每个人都能轻松制作视频”,无论用户是经验丰富的电影制作人、渴望创作的创作者,还是教育工作者。Veo支持文本到视频、视频到视频以及图像到视频的转换。
谷歌与全才艺术家唐纳德·格洛弗(Donald Glover),也就是Childish Gambino,合作,通过他的创意工作室Gilga测试Veo的新功能。
DeepMind展示了Veo的强大能力,通过其YouTube和X账号发布了多段生成的视频,内容包括霓虹城市、栩栩如生的水母、骑马的牛仔、探索宇宙的宇宙飞船以及人类互动。这些结果与实际拍摄和精心制作的动画高度相似,均源于简单的文本提示。
在谷歌副总裁艾利·柯林斯(Eli Collins)和高级研究总监道格拉斯·埃克(Douglas Eck)的博客中,Veo被强调为具有“前所未有的创作控制能力”,对“延时摄影”和“空中镜头”等电影术语有着深刻的理解。
此外,Veo还可以快速高效地编辑AI生成和用户上传的视频,包括预先录制的素材。例如,用户可以输入一条编辑命令,如在航拍海岸线画面中添加皮划艇,Veo能将其无缝地融入原视频中。
Veo在保持视频帧一致性方面表现出色,解决了一些其他模型(包括Sora)常见的不一致性问题。它通过先进的潜在扩散变换器,确保角色和物体的连贯性和真实感。
为了提升性能,谷歌改善了训练数据的字幕,并采用了高质量的压缩视频表示。这种优化提高了整体视频质量,并减少了生成时间。所有由Veo生成的视频都嵌入了SynthID,这是谷歌的内容认证水印,确认其为AI生成作品。
Veo代表了DeepMind多年研究的结晶,基于过去的创新技术,如生成查询网络(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet和Lumiere。
目前,Veo尚未公开发布。遵循OpenAI的Sora模型,它通过VideoFX的私人预览向部分创作者开放。谷歌计划最终将Veo的一些功能整合到YouTube Shorts和其他产品中。