OpenAI的Whisper v3：针对商业应用的高级语音识别解决方案

Home AI News CN OpenAI的Whisper v3：针对商业应用的高级语音识别解决方案

随着语音识别技术的显著进步，OpenAI 的 Whisper v3 大幅提升了语言理解能力并减少了错误率，训练数据量达到惊人的五百万小时。该创新的开源模型旨在帮助企业提升客户服务体验。Whisper v3 最近在 OpenAI DevDay 上发布，展示了其在多种语言上的改进表现，并专门为粤语引入了独立的语言标记。

Whisper 于 2022 年 9 月首次推出，已经证明了其在将音频片段转换为文本中的实用性，具备语音翻译、语言识别和语音活动检测功能，使其成为语音助手的理想选择。借助 Whisper，企业可以轻松转录客户通话或创建音频内容的文本版本。将 Whisper 与 OpenAI 的先进文本生成模型（如新发布的 GPT-4 Turbo）进行集成，能为开发强大的双模态应用提供无限可能，结合语音识别和文本生成。

OpenAI 开发者体验负责人 Romain Huet 演示了这些集成的潜力。他利用 Whisper 将语音输入转录为文本，并与 GPT-4 Turbo 模型配合，展示了能够讲述内容的智能助手，这也得益于新发布的文本转语音 API。

Whisper v3 突出于其庞大的训练数据量——五百万小时，相较于前一版的 68 万小时有了显著提升，同时其复杂的训练方法也不容忽视。其中约有一百万小时的音频数据是弱标记的，仅表示声音的存在，而四百万小时则通过预测建模技术进行了伪标记。

该模型采用 Transformer 架构，处理代表音频数据的标记序列，有效解码以生成有意义的文本输出。它将音频输入分解为可管理的小块，从而准确识别所说内容。

为了满足不同应用需求，Whisper v3 提供了多种模型规模。最小模型 Tiny 拥有 3900万个参数，运行时约需 1GB 的 VRAM。基础模型包含 7400万个参数，其处理速度约为以前版本的 16 倍。最大的版本称为 Large，拥有惊人的 15.5 亿个参数，并需要约 10GB 的 VRAM 进行部署。

在 Common Voice 15 和 Fleurs 等音频基准测试中，Whisper v3 的错误率显著低于 2022 年 12 月发布的早期版本。OpenAI CEO Sam Altman 在主题演讲中表示：“我们相信你一定会喜欢它。”

如何访问 Whisper v3？

Whisper v3 可在 Hugging Face 或 GitHub 等平台上开放获取，允许根据 MIT 许可证进行商业使用。这使企业在遵循许可证中规定的特定条件（包括在分发版本中需要附带必要的版权和许可声明）下，能够实施 Whisper v3。

需要注意的是，虽然许可证允许广泛使用，但它不提供任何担保，并限制了作者或版权持有人对因其实施而可能出现的问题的责任。尽管 Whisper 是开源的，OpenAI 已公告计划在不久的将来通过其 API 支持该自动语音识别模型的最新版本。

虽然 Whisper v3 在性能上取得了重大飞跃，OpenAI 也承认在缺乏训练数据的语言中，准确性可能会下降。此外，面对不同口音和方言的挑战，可能导致更高的单词错误率。

OpenAI解雇首席执行官山姆·奧特曼：这对人工智能的未来意味着什么？

人工智能新闻快讯：YouTube推出AI编辑视频标签

Most people like

MidGenAI

68.1K

利用人工智能将文本转化为视觉内容是一种创新的方法，能够为信息传递带来全新体验。通过这种技术，文字不仅能被理解，还能以更直观、更引人注目的形式呈现，极大地增强了用户的参与感和信息的传达效果。无论是在教育、营销还是个人创作中，AI驱动的视觉内容都推动着我们向更生动的故事讲述方式迈进。

AI 图像生成器 AI 相片和图像生成器

Explainpaper

90.1K

在研究论文中，针对令人困惑的文字进行高亮标注和详细解释是极为重要的。这不仅有助于读者理解复杂概念，还能强化论文的整体清晰度和可读性。通过这种方式，研究者能够有效地传达关键信息，促进学术交流。

研究论文代码解释工具

Lingolette

45.3K

提升口语流利度的语言教学工具

语言学习 AI聊天机器人

Storyboarder.ai

61.3K

使用人工智能优化故事板制作流程在创作过程中，故事板是连接创意与视觉表达的重要桥梁。利用人工智能，大大简化了故事板的制作流程，使创作者能够高效地将想法转化为引人入胜的视觉内容。通过AI技术，故事板的设计与编辑变得更加直观与便捷，让创作者专注于故事本身，而不必为繁琐的流程而烦恼。

AI 故事板 AI脚本编写

Find AI tools in YBX