变革语音识别AI：aiOla创新方法助您掌握行业术语

Home AI News CN 变革语音识别AI：aiOla创新方法助您掌握行业术语

语音识别是多模态人工智能系统的重要组成部分。尽管许多企业渴望采用这一技术，准确理解行业专业术语的挑战仍然存在。以色列创新初创公司aiOla在解决这一问题方面取得了显著进展。该公司推出了一种新方法，旨在帮助语音识别模型更好地理解特定行业的专业词汇。

这一发展提升了语音识别系统的准确性和响应能力，使其在复杂的企业环境中，甚至在具有挑战性的音频条件下，也能更加有效。在最初的案例研究中，aiOla对OpenAI的Whisper模型进行了调整，成功降低了其字词错误率，并提高了整体检测准确性。

行业术语的挑战

近年来，深度学习的进步推动了高性能自动语音识别（ASR）和转录系统的出现。OpenAI的Whisper因其在英语语音识别中的人类水平的稳健性和准确性而备受关注。然而，自2022年推出以来，许多人观察到Whisper在现实环境中的表现受到了噪声的影响，导致音频解读准确性受到挑战。例如，在重型机械噪音中解读安全警报，或在医学、法律等领域理解专业术语的指令，通常较为困难。

采用先进ASR模型（如Whisper）的组织，往往努力使其系统满足特定行业的独特需求。尽管这种微调能够提高性能，但通常会消耗大量时间和财务资源。aiOla的研究副总裁Gil Hetz表示：“微调ASR模型需要数天时间和数千美元的费用，而这还是在你已有数据的情况下。如果没有，收集和标记音频数据可能需要数月，费用高达数万美元。”

aiOla的解决方案

为了解决这些挑战，aiOla开发了一种两步的“上下文偏置”方法。首先，AdaKWS关键字识别模型从语音样本中识别出行业特定的术语。接着，这些识别出的关键字引导ASR解码器将术语融入最终转录文本中，从而增强模型对专业语言的识别能力。

在初步测试中，aiOla使用Whisper并实验了两种提升性能的技术：KG-Whisper（关键字引导Whisper）和KG-Whisper-PT（提示微调）。这两种适配策略在各种数据集上均展示了比原始Whisper模型更优的表现，即使在艰难的音频环境中也是如此。

赫茨表示：“我们的新模型（KG-Whisper-PT）显著降低了字词错误率（WER），提高了准确性（F1得分）。在医学数据集测试中，它的F1得分为96.58，而Whisper为80.50，WER为6.15，而Whisper为7.33。”

这一方法与多种ASR模型兼容。虽然aiOla使用了Whisper，但相同的方法也可以应用于Meta的MMS和其他专有的语音转文本模型，使企业能够创建定制的识别系统，而无需重新训练。只需向关键字识别器提供一份行业特定词汇列表即可。

赫茨解释道：“该模型提供了完整的ASR能力，能够准确识别行业术语。我们可以快速适应不同的行业，仅需调整术语词汇，而无需重新训练整个系统。从本质上讲，它是一个零样本模型，能够在未见过特定示例的情况下进行预测。”

为财富500强公司节省时间

凭借适应性，aiOla的方法可以惠及航空、运输、制造和物流等多个具有技术术语的行业。该公司已开始与财富500强客户合作，显著提高他们在术语密集流程管理中的效率。

例如，一家全球前50的航运和物流领导者采用了aiOla的模型，将日常卡车检查的时间从大约15分钟缩短至不到60秒。同时，加拿大一家领先的杂货连锁店利用该模型监控产品和肉类温度，预计年节省时间达11万小时，预期节省成本超过250万美元，投资回报率达到5倍。

aiOla分享其研究成果，希望能激发其他研究团队在人工智能领域的进一步进展。不过，目前该公司并未提供对已调整模型的API访问或发布其权重，企业只能通过aiOla的订阅产品获取相关技术。

Salesforce xLAM-1B“小巨人”：小型AI模型如何超越大型竞争者

Meta发布“3D Gen”：以惊人速度加速AI驱动的3D资产创建

Most people like

LabEx

170.5K

互动学习平台，融合实践性实验室和人工智能技术，为学习者提供全面的教育体验。

编码 AI 代码助手

APOB

222.2K

探索AI虚拟形象创建工具，这是一款创新的技术，旨在帮助用户轻松设计和生成个性化的虚拟形象。无论是用于社交媒体、游戏还是企业展示，AI虚拟形象创建工具都能提供无限的创意可能性。通过简单的界面和强大的功能，用户可以根据自己的需求，定制独特的形象，展现个性和风格。无论您是艺术家、企业主还是普通用户，这款工具都将成为您展现自我的理想助手。

AI创作工具 AI 相片和图像生成器

chichi-pui

5.1M

在本网站上，用户可以轻松完成AI绘画的投稿和生成。

AI图像 AI艺术生成器

timeOS

49.2K

人工智能驱动的会议准备新标签页，用于提高效率和组织能力。

AI生产力助手 AI 笔记助手

Find AI tools in YBX