OpenAI最近在X(前Twitter)上宣布,即将推出备受期待的ChatGPT高级语音功能,该功能将于“下周”开始逐步推送,首批用户为部分ChatGPT Plus订阅者。这一alpha测试旨在收集用户反馈,以便根据这些见解对功能进行扩展。
高级语音功能将用户互动提升到一个新水平,用户可以像和他人聊天一样进行自然对话,而无需依赖文本提示。该功能于5月在公司春季更新活动中首次介绍,与Siri和谷歌助手等典型数字助手不同,ChatGPT的高级语音几乎可以即时提供类似人类的回复,并支持多种语言。GPT-4o模型的平均音频响应时间仅为320毫秒,接近人类对话的速度。在演示视频中,用户可以看到该模型与多个用户互动,进行英语和葡萄牙语即兴对话,并表现出类似人类的情感,包括笑声。
至于如何选择参与alpha测试的用户,细节尚不明确,但他们需为每月20美元的ChatGPT Plus订阅者。该alpha测试原定于6月发布,但因需要增强内容审核能力和IT基础设施以应对预期的用户需求而延迟。如6月所宣布,预计全功能推出不会早于秋季,其时间将取决于是否满足高安全性和可靠性标准。
将自然对话能力集成到ChatGPT中标志着重大进步。这一进展降低了对上下文窗口的需求,减轻了硬件要求,拓宽了人工智能的潜在应用,尤其对于行动或灵活性受限的用户。此外,通过简化交互流程,这一功能使得AI技术在熟悉语音命令(如“嘿Siri”)的用户中更易被接受,避免了复杂的提示设计带来的困扰。