语音识别是多模态人工智能系统的重要组成部分。尽管许多企业渴望采用这一技术,准确理解行业专业术语的挑战仍然存在。以色列创新初创公司aiOla在解决这一问题方面取得了显著进展。该公司推出了一种新方法,旨在帮助语音识别模型更好地理解特定行业的专业词汇。
这一发展提升了语音识别系统的准确性和响应能力,使其在复杂的企业环境中,甚至在具有挑战性的音频条件下,也能更加有效。在最初的案例研究中,aiOla对OpenAI的Whisper模型进行了调整,成功降低了其字词错误率,并提高了整体检测准确性。
行业术语的挑战
近年来,深度学习的进步推动了高性能自动语音识别(ASR)和转录系统的出现。OpenAI的Whisper因其在英语语音识别中的人类水平的稳健性和准确性而备受关注。然而,自2022年推出以来,许多人观察到Whisper在现实环境中的表现受到了噪声的影响,导致音频解读准确性受到挑战。例如,在重型机械噪音中解读安全警报,或在医学、法律等领域理解专业术语的指令,通常较为困难。
采用先进ASR模型(如Whisper)的组织,往往努力使其系统满足特定行业的独特需求。尽管这种微调能够提高性能,但通常会消耗大量时间和财务资源。aiOla的研究副总裁Gil Hetz表示:“微调ASR模型需要数天时间和数千美元的费用,而这还是在你已有数据的情况下。如果没有,收集和标记音频数据可能需要数月,费用高达数万美元。”
aiOla的解决方案
为了解决这些挑战,aiOla开发了一种两步的“上下文偏置”方法。首先,AdaKWS关键字识别模型从语音样本中识别出行业特定的术语。接着,这些识别出的关键字引导ASR解码器将术语融入最终转录文本中,从而增强模型对专业语言的识别能力。
在初步测试中,aiOla使用Whisper并实验了两种提升性能的技术:KG-Whisper(关键字引导Whisper)和KG-Whisper-PT(提示微调)。这两种适配策略在各种数据集上均展示了比原始Whisper模型更优的表现,即使在艰难的音频环境中也是如此。
赫茨表示:“我们的新模型(KG-Whisper-PT)显著降低了字词错误率(WER),提高了准确性(F1得分)。在医学数据集测试中,它的F1得分为96.58,而Whisper为80.50,WER为6.15,而Whisper为7.33。”
这一方法与多种ASR模型兼容。虽然aiOla使用了Whisper,但相同的方法也可以应用于Meta的MMS和其他专有的语音转文本模型,使企业能够创建定制的识别系统,而无需重新训练。只需向关键字识别器提供一份行业特定词汇列表即可。
赫茨解释道:“该模型提供了完整的ASR能力,能够准确识别行业术语。我们可以快速适应不同的行业,仅需调整术语词汇,而无需重新训练整个系统。从本质上讲,它是一个零样本模型,能够在未见过特定示例的情况下进行预测。”
为财富500强公司节省时间
凭借适应性,aiOla的方法可以惠及航空、运输、制造和物流等多个具有技术术语的行业。该公司已开始与财富500强客户合作,显著提高他们在术语密集流程管理中的效率。
例如,一家全球前50的航运和物流领导者采用了aiOla的模型,将日常卡车检查的时间从大约15分钟缩短至不到60秒。同时,加拿大一家领先的杂货连锁店利用该模型监控产品和肉类温度,预计年节省时间达11万小时,预期节省成本超过250万美元,投资回报率达到5倍。
aiOla分享其研究成果,希望能激发其他研究团队在人工智能领域的进一步进展。不过,目前该公司并未提供对已调整模型的API访问或发布其权重,企业只能通过aiOla的订阅产品获取相关技术。