OpenAI推出ChatGPT Plus用户的GPT-4o语音模式,提升自然实时对话体验

最近,OpenAI 宣布了一项重要更新:GPT-4o 语音模式的早期访问(Alpha)版现已向部分 ChatGPT Plus 订阅用户开放,计划在今年秋季进行更广泛的推广。这标志着自然语言处理与语音交互技术集成的重要进展。

GPT-4o 是 OpenAI 最新的统一模型,能够通过同一神经网络处理文本、视觉和音频输入,从而实现无缝连接。这一能力不仅提升了模型的整体处理性能,还为用户提供了更自然、即时的对话体验。

OpenAI 首席技术官 Mira Murati 表示,GPT-4o 是公司首次全面尝试融合文本、视觉和音频模式。尽管该模型仍在功能探索和限制评估的早期阶段,但团队对其潜力充满信心,并积极进行优化。

原定于六月底进行测试的 GPT-4o 语音模式试用经过延迟,以进一步完善模型。OpenAI 表示,他们正在增强模型识别和拒绝不适当内容的能力,以确保用户体验的安全和积极。得益于这些努力,GPT-4o 语音模式提前推出,标志着其将向更广泛的用户开放。

与 GPT-3.5 和 GPT-4 相比,GPT-4o 在语音交流方面表现更加出色。数据显示,GPT-3.5 的平均语音响应延迟为 2.8 秒,而 GPT-4 增加到了 5.4 秒,影响了对话的流畅性。然而,通过技术优化,GPT-4o 显著减少了这一延迟,达成了几乎无缝的对话体验。它还具备快速响应和高度真实的语调,能够识别并模拟情感,如悲伤和兴奋,丰富了对话的生动性。

在推广 GPT-4o 语音模式的同时,OpenAI 强调其对用户隐私和安全的承诺。公司发言人 Lindsay McCallum 表示,ChatGPT 永远不会模仿任何个人或公众人物的声音,并且严格限制与预设声音不符的输出,以保护用户的权利和隐私。

通过推出 GPT-4o 语音模式,OpenAI 旨在继续引领人工智能技术创新,提供更智能、更便捷和更安全的语音交互体验。

Most people like

Find AI tools in YBX