位于伦敦的初创企业Synthesia专注于企业级AI视频创作,近期在其平台上推出了“表达型虚拟角色”,进一步增强了传统数字化身的功能。
从今天开始,这些AI虚拟角色能够根据内容的上下文调整语调、面部表情和肢体语言。这一发布紧跟微软推出的VASA框架,后者将人类头像转化为带有表情和头部动作的动画视频。不过,VASA仍处于研究阶段,而Synthesia的表达型虚拟角色则是真正的技术创新,旨在帮助企业为观众打造更逼真的AI视频。
Synthesia在AI视频领域的创新突破
Synthesia成立于2017年,由斯坦福大学和剑桥大学的AI研究人员与企业家创立,开发了一个端到端的平台,结合了定制的AI声音和虚拟角色。用户可以通过预先编写的脚本或AI生成的内容创建具有专业水准的AI视频,推动了企业中的广泛采用。目前已有超过20万用户创建了1800多万部视频,尽管早期的虚拟角色在传达情感方面存在不足,无法实时调整语调和表情。
此次推出的表达型虚拟角色有效解决了这一限制。根据Synthesia的说法,新一代AI虚拟角色能够理解文本中的情感和上下文,从而相应地调整语调和表情。它们可以通过细微的面部变化、眨眼和眼动传达多种情感。例如,讨论愉快话题时,虚拟角色可能微笑;而在处理沉重主题时,则会放慢语速。
“我们的目标不仅是创造数字化呈现,更是推出数字化演员,”Synthesia首席技术官Jon Starck在博客中表示。“这项技术增强了数字角色的真实感,模糊了虚拟与现实之间的界限。”
表达型虚拟角色的技术基础
为了实现这种细腻的情感理解,Synthesia采用了EXPRESS-1,一个经过大量文本和视频数据训练的深度学习模型,反映了现实世界中的口语交流。
Starck解释道:“EXPRESS-1能够实时预测运动和面部表情,完美契合言语的细微差别,带来极其自然的表演。”新角色还提供了多语言的改进口型同步和语音能力。
表达型虚拟角色的潜在影响
虽然具有人类情感的AI虚拟角色可能存在被滥用的风险,但Synthesia致力于推动积极的企业应用,尤其是在交流和知识分享方面。例如,医疗公司可以利用表达型虚拟角色制作更具同情心的患者视频,而市场团队可能会用来传达对新产品的热情。
为促进负责任的使用,Synthesia已修订平台政策,限制某些内容类型,并积极投资于早期滥用检测和内容验证技术,如C2PA。
目前,Synthesia拥有300名员工,与超过55,000家企业合作,客户中包括《财富》100强中的一半。Zoom公司报告称,使用Synthesia制作销售和培训视频的效率提高了90%。