OpenAI推出语音克隆人工智能模型,现仅向部分合作伙伴开放

OpenAI正在拓展其在文本、图像和视频生成领域之外的影响力,推出了一项重要的音频技术进展:声音克隆。今天,公司宣布了其最新的人工智能模型——“声音引擎”。该模型自2022年以来一直在开发中,驱动着OpenAI的文本转语音API,以及本月早些时候推出的ChatGPT语音和朗读功能。

声音克隆的工作原理

声音引擎能够通过让人类说话者录制15秒的音频片段,创建逼真的声音克隆。录音可以通过手机或电脑的麦克风进行。然后,人工智能生成自然的语音,与原说话者非常相似,从而实现将任何输入文本转为口语的功能。

对语音音频市场的重大影响

这一技术为那些经常进行公众演讲的人群开辟了巨大的潜力,包括播客主持人、配音演员、有声书叙述者、游戏主播和客户服务代表。此外,它还将对该领域的竞争对手,如ElevenLabs、Captions、Meta、WellSaid Labs和MyShell形成挑战。

OpenAI还强调,声音引擎能够为失语人士提供独特的非机械化声音,这在治疗和教育环境中对有言语障碍或学习困难的人士尤为重要。

初步应用案例

在公告中,OpenAI指出声音引擎目前只提供给一小部分可信赖的合作伙伴,包括:

- Age of Learning:利用声音引擎和GPT-4为多样化的学生群体创建个性化的声音内容。

- HeyGen:运用该技术进行视频翻译,创建具有真实声音的多语言定制化头像,提升全球沟通。

- Dimagi:整合声音引擎为社区健康工作者提供互动的多语言反馈,改善偏远地区的服务质量。

- Livox:利用声音引擎提升其AAC应用,为言语和听力障碍人士提供独特的声音。

- Lifespan的Norman Prince神经科学研究所:使用该技术帮助有言语障碍的患者,特别是基于以前的音频样本帮助恢复脑肿瘤患者的声音。

OpenAI还提供了音频样本,演示了该技术的能力,包括患者原始声音和使用声音引擎生成的克隆版本之间的比较。

限制性访问与谨慎部署

目前,声音引擎尚未向公众开放。OpenAI仅向少量信任的合作伙伴分享小规模预览的见解和结果。公司表示:“出于合成语音被滥用的潜在风险,我们在向更广泛的发布采取谨慎和明智的策略。”OpenAI希望启动关于合成语音负责任使用的讨论,并评估社会如何适应这些进展。

OpenAI在发布声音引擎时的做法与近期对人工智能语音冒充的监管呼声相符。为确保技术的伦理使用,合作伙伴在测试技术时必须遵循严格的政策,禁止未经授权的冒充,并要求得到声音提供者的知情同意。此外,OpenAI正在实施安全措施,包括水印和主动监测,以促进负责的技术使用。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles