OpenAI已经开始为部分ChatGPT Plus用户推出其高级语音模式beta版,旨在提升用户在iOS和Android版ChatGPT移动应用上的自然对话体验。
OpenAI在其X账号上宣布,这一功能初期将提供给“少数ChatGPT Plus用户”,计划到2024年秋季逐步扩大到所有Plus订阅者。ChatGPT Plus是每月20美元的订阅服务,用户可访问OpenAI的高级大语言模型(LLM)聊天机器人,此外还有免费的Team和Enterprise套餐。
目前尚不清楚OpenAI如何选择首批使用高级语音模式的用户,但被选中的用户将收到电子邮件和应用内的通知,并附有使用说明。感兴趣的用户请关注ChatGPT移动应用上的更新。
高级语音模式在2024年5月的OpenAI春季更新活动中首次亮相,使得用户能够与AI生成的四种声音进行实时对话。该聊天机器人旨在实现自然互动,能够处理打断,并在语音中展现情感细节。
OpenAI指出,这一功能在多个实际应用中具有潜力,包括提供辅导帮助、时尚建议,以及为视觉障碍人士提供支持,特别是结合其视觉识别能力。
尽管最初计划于6月底发布,但由于涉及演员斯嘉丽·约翰逊的争议(她指控OpenAI试图模仿她的声音),这一推出遭遇延迟。作为回应,OpenAI从其库中移除了名为“Sky”的AI声音。
最近,ChatGPT应用的官方账号在X上确认了高级语音模式的推出:“期待已久的高级语音模式现已开始推出!”
OpenAI首席技术官Mira Murati表达了对这一新功能的兴奋,称“更丰富更自然的对话使技术变得不那么死板——我们发现这种方式更具合作性和帮助性,您也会如此认为。”
在官方公告中,OpenAI强调了其对安全性和质量的承诺。他们表示:“自第一次演示高级语音模式以来,我们一直在加强语音对话的安全性,以准备好这一技术服务于数百万用户。”公司还提到,已与100多名外部安全专家进行了全面的语音能力测试,涵盖45种语言。为了保护隐私,模型将仅使用四种预设声音,并会屏蔽所有超出范围的输出。同时,针对请求暴力或侵犯版权内容的请求有防护措施。
此消息传出时,关于AI在欺诈和冒充方面的潜在风险的关注再次引发热议。目前,OpenAI的语音模式不支持新声音生成或克隆,但仍可能对不知情的用户造成风险。
在另一事件中,埃隆·马斯克因分享美国民主党总统候选人卡马拉·哈里斯的一段声音克隆而受到批评,这凸显了语音克隆技术仍然存在的问题。
自春季更新以来,OpenAI发布了几篇论文,讨论安全性和AI模型的对齐,同时面临外界对其重视产品发布而忽视安全问题的审查。高级语音模式的谨慎推出旨在回应这些批评,重申OpenAI在创新与安全之间的承诺。
高级语音模式的推出进一步将OpenAI与Meta和Anthropic等竞争对手区分开来,加剧了情感AI语音技术领域的竞争。