Assembly AI 最新推出了其最新的语音识别模型——Universal-1。该模型经过超过 1250 万小时的多语言音频数据训练,在英语、西班牙语、法语和德语等语言的语音转文本准确度上达到了令人印象深刻的水平。公司表示,与 OpenAI 的 Whisper Large-v3 模型相比,Universal-1 在语音数据上减少了 30% 的幻觉发生率,在环境噪声上减少了 90%。
在最近的一篇博客文章中,Assembly AI 将 Universal-1 描述为实现其提供多语言高准确度、可靠性和稳健性语音转文本能力的重要一步。该模型能够有效处理代码混合,能够在单个音频文件中转录多种语言。
Universal-1 在时间戳估计方面表现出色,这对音频和视频编辑以及对话分析至关重要。它比前身模型 Conformer-2 提高了 13%,在说话者区分和连接最小排列词误差率(cpWER)方面也有显著提升,达到 14%。此外,讲话者人数估计的准确率也上升至 71%。
该模型还具备优化的并行推理能力,大幅减少了长音频文件的处理时间。在 Nvidia Tesla T4 机器上,Universal-1 可在仅 21 秒内转录 1 小时的音频,比 Whisper Large-v3 快了五倍,后者在相同任务中需用时 107 秒。
增强版的语音转文本 AI 模型带来了诸多好处,包括生成更准确和可靠的记录,识别行动项,以及整理诸如专有名词、说话者身份和时间等元数据。这一改进将有助于多种应用场景,从 AI 驱动的视频编辑到需要精确临床记录输入和索赔提交的远程医疗平台。
Universal-1 现已通过 Assembly AI 的 API 提供访问。