OpenAI的Whisper v3:针对商业应用的高级语音识别解决方案

随着语音识别技术的显著进步,OpenAI 的 Whisper v3 大幅提升了语言理解能力并减少了错误率,训练数据量达到惊人的五百万小时。该创新的开源模型旨在帮助企业提升客户服务体验。Whisper v3 最近在 OpenAI DevDay 上发布,展示了其在多种语言上的改进表现,并专门为粤语引入了独立的语言标记。

Whisper 于 2022 年 9 月首次推出,已经证明了其在将音频片段转换为文本中的实用性,具备语音翻译、语言识别和语音活动检测功能,使其成为语音助手的理想选择。借助 Whisper,企业可以轻松转录客户通话或创建音频内容的文本版本。将 Whisper 与 OpenAI 的先进文本生成模型(如新发布的 GPT-4 Turbo)进行集成,能为开发强大的双模态应用提供无限可能,结合语音识别和文本生成。

OpenAI 开发者体验负责人 Romain Huet 演示了这些集成的潜力。他利用 Whisper 将语音输入转录为文本,并与 GPT-4 Turbo 模型配合,展示了能够讲述内容的智能助手,这也得益于新发布的文本转语音 API。

Whisper v3 突出于其庞大的训练数据量——五百万小时,相较于前一版的 68 万小时有了显著提升,同时其复杂的训练方法也不容忽视。其中约有一百万小时的音频数据是弱标记的,仅表示声音的存在,而四百万小时则通过预测建模技术进行了伪标记。

该模型采用 Transformer 架构,处理代表音频数据的标记序列,有效解码以生成有意义的文本输出。它将音频输入分解为可管理的小块,从而准确识别所说内容。

为了满足不同应用需求,Whisper v3 提供了多种模型规模。最小模型 Tiny 拥有 3900万个参数,运行时约需 1GB 的 VRAM。基础模型包含 7400万个参数,其处理速度约为以前版本的 16 倍。最大的版本称为 Large,拥有惊人的 15.5 亿个参数,并需要约 10GB 的 VRAM 进行部署。

在 Common Voice 15 和 Fleurs 等音频基准测试中,Whisper v3 的错误率显著低于 2022 年 12 月发布的早期版本。OpenAI CEO Sam Altman 在主题演讲中表示:“我们相信你一定会喜欢它。”

如何访问 Whisper v3?

Whisper v3 可在 Hugging Face 或 GitHub 等平台上开放获取,允许根据 MIT 许可证进行商业使用。这使企业在遵循许可证中规定的特定条件(包括在分发版本中需要附带必要的版权和许可声明)下,能够实施 Whisper v3。

需要注意的是,虽然许可证允许广泛使用,但它不提供任何担保,并限制了作者或版权持有人对因其实施而可能出现的问题的责任。尽管 Whisper 是开源的,OpenAI 已公告计划在不久的将来通过其 API 支持该自动语音识别模型的最新版本。

虽然 Whisper v3 在性能上取得了重大飞跃,OpenAI 也承认在缺乏训练数据的语言中,准确性可能会下降。此外,面对不同口音和方言的挑战,可能导致更高的单词错误率。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles