OpenAI正在推出期待已久的“ChatGPT高级语音模式”,这是一种类人对话语音接口,现已扩大到初始测试组和等待名单之外的用户。该功能将向所有OpenAI的ChatGPT Plus和Team计划的付费订阅者开放,预计在接下来的几天内在美国逐步推出,Edu和Enterprise计划的用户可在下周使用。
除了语音接口,OpenAI还引入了“自定义指令”和“记忆”功能,以实现个性化互动,这些特性与先前针对ChatGPT文本选项发布的功能相似。用户将享受五种新语音风格:Arbor、Maple、Sol、Spruce和Vale,与现有的Breeze、Juniper、Cove和Ember语音相辅相成。
此项增强功能使ChatGPT用户可以通过语音与聊天机器人互动,而非打字。用户在应用中进入高级语音助手模式时,会收到弹出通知。OpenAI在精细调整热门外语的口音及提升对话流畅性方面投入了大量时间,尤其是在alpha版本后。用户还将看到重新设计的高级语音模式,配有动画蓝色球体。
这些更新仅适用于GPT-4o模型,不包括更新的一代预览模型。自定义指令和记忆功能将进一步个性化用户在语音聊天中的互动。
随着AI语音助手如苹果的Siri和亚马逊的Alexa日益受到欢迎,开发者们在努力创造更类人的对话体验。ChatGPT已经通过朗读功能实现语音功能,而高级语音模式旨在提供更具吸引力和真实感的互动体验。
在竞争对手中,Hume AI最近推出了其情感语音接口,可以通过语音模式检测情感,而Kyutai发布了开源AI语音助手Mosho。谷歌为其Gemini聊天机器人增加了语音,Meta也在为其AI平台开发模拟知名演员的语音。OpenAI声称其AI语音技术的可访问性优于竞争对手。
尽管引发了热议,但AI语音的整合也并非没有争议。对于ChatGPT的一种语音Sky与女演员斯嘉丽·约翰逊的声音相似性,特别是在CEO山姆·奧特曼提到“她”时,引发了关注,令人想起约翰逊在一部影片中饰演的AI助手。OpenAI强调并不打算复制知名人士的声音,并表示用户只能访问九种不同的OpenAI语音。
此次发布最初计划在六月底推出,但因要确保安全性而推迟至“七月底或八月初”。OpenAI与流利掌握45种语言的外部红队进行了广泛评估,横跨29个地区。目前扩展访问的决定表明,OpenAI对实施的安全措施充满信心,并遵循与美国和英国政府合作的谨慎方法,在发布新模型前提供预览。