WellSaid Labs 是人工智能(AI)语音技术的领先企业,最近推出了一款创新工具 HINTS(高智能自然定制语音),该工具使用户能够以更自然、细腻的方式操控 AI 语音表现。此新功能使内容创作者能够使用上下文注释(如语速和音量调整)自定义 AI 语音,类似于电影导演的工作方式。
WellSaid Labs 的联合创始人兼首席技术官迈克尔·佩特罗丘克在一次独家采访中表示:“我们的客户希望能够更好地控制 AI 的语音输出。我们旨在打造一个既直观又自然的系统,使我们的模型能够根据用户上下文预测真实的表现,从而帮助创作者实现他们的艺术愿景。”
HINTS 标志着一种新方法,摆脱了依赖僵硬标记语言或简单提示来控制 AI 语音的传统方式。这项新技术允许进行详细的、可插值的调整,例如将特定段落的语速降低到 0.7 倍或将音量提高 5 分贝,而 AI 语音能无缝响应。这种上下文意识使用户能够在较长的脚本中层次分明地嵌套注释。
佩特罗丘克解释道:“该系统使用真实的人类数据(经过同意获取)的音频输出,使得其标注的语言表现与未标注的表现一样真实。令人惊讶的是,我们发现该模型不仅有效利用单一数据集,还能跨多个说话者的表现进行泛化,以提高其韵律。这一发现超出了我们的预期,突显了未来研究的潜力。”
HINTS 满足了对高度可定制、关注导演的AI语音工具的需求,可能会改变有声读物、培训模块、市场营销视频等领域的语音内容。初步评估显示其准确性和自然性都有所提升。
该研究还优先考虑负责任和伦理的 AI 实践。佩特罗丘克指出:“从一开始,我们就致力于伦理创新。”WellSaid 确保声源提供者的明确同意,保护隐私,并对内容进行审核以防止滥用。
随着语音AI日益融入消费科技和娱乐行业,HINTS 展示了这项技术如何成为一种富有同情心的叙事媒介,而不仅仅是一个发声工具。尽管与人类才能相比仍然存在局限,但像 HINTS 这样的创新使我们更接近于实现真正富有表现力的合成语音。