将语音转换为文本的能力往往被低估,尤其是aiOla公司推出的全新AdaKWS模型,其快速且准确的性能引人注目。aiOla是一家成立于2020年的以色列科技初创企业,专注于语音识别技术。
AdaKWS在OpenAI的Whisper AI文本转换模型基础上进行了增强,提升了16种语言中的关键词检测准确率6.2%,而英语的提升幅度则超过16%。根据aiOla的数据显示,AdaKWS在关键词识别方面达到了94.6%的准确率,远超Whisper的88.4%。该模型几乎可以实时支持100种语言的转录。
虽然这些统计数据初看并不显眼,但它们标志着准确率从80%的分位上跃升至90%,这一升级使得该技术不仅可用于小众应用,还能够广泛应用于高度监管的领域,如医疗和食品安全。此外,AdaKWS在文本转录速度上约比Whisper-Large V2快160倍。
aiOla首席执行官兼联合创始人阿米尔·哈拉马提表示:“关键词识别能力使得各行各业的日常流程实现自动化,从记录包裹受损报告到完成食品工厂的安全检查,将语音转化为行动。”
多元化企业应用
虽然我们通常将语音转文本AI与客户服务电话的转录联系在一起,但aiOla的技术也在一些非传统领域取得了进展。在一次媒体演示中,哈拉马提展示了其在医疗保健环境中的应用。一位健康科技讲者从病人监测设备中读取数据,AdaKWS模型在几秒钟内自动填写了复杂的文本表格,省去了手动输入的繁琐。
此外,aiOla还强调了其在监测超市冰箱温度方面的应用。通过允许人工监测员口头报告读数,该系统每年为客户节省了超过11万个小时的人工数据录入时间。
AdaKWS的潜力引起了行业领袖的关注;哈拉马提还提到,甲骨文首席执行官拉里·艾里森表达了将该技术应用于医疗记录的兴趣。
AdaKWS语音转文本的工作原理
AdaKWS采用了前沿的关键词识别方法,能够无缝融入商业工作流程,通过语音命令实现自动化。它作为一种机器学习算法,优化现有的语音转文本模型,如OpenAI的Whisper,将其嵌入在负责解读语音的编码器与将音频转化为文本的解码器之间。
aiOla首席科学家约瑟夫·凯舍特表示:“我们的关注点在于优化。”与传统模型需要大量重训练以适应新关键词不同,AdaKWS能迅速适应超过100种语言和方言。这种适应性使其在企业环境中极具价值。
哈拉马提指出:“行业特定术语普遍存在,可能主导沟通。”凯舍特补充说:“我们的系统经过训练,以确保对这些关键词的准确性,它们在潜在空间中有效泛化。”
AdaKWS特别适合多语言互动频繁的组织,因为它可以迅速调整以适应特定行业的术语。用户可以提交关键词列表,模型将自主学习,甚至在没有听到口语版本的情况下也能识别这些术语。
该模型在数小时内即可投入使用,快速学习新语言、流程和关键词。一次涵盖16种语言的基准测试显示,AdaKWS不仅超越了Whisper的准确性,还能高效处理复杂术语,同时消耗较少的计算资源。这项基础研究已于2023年9月在学术论文中发表。
提升商务运营
随着企业越来越寻求高效可靠的解决方案来管理复杂的数据和沟通任务,aiOla的AdaKWS为简化运营和减少开支提供了重大机遇。该技术通过基于用户和使用案例的SaaS订阅模式,在网页和移动应用程序中提供。
aiOla在语音AI方面的进步不仅树立了行业新标杆,还为提高AI在日常业务流程中的整合创新铺平了道路。哈拉马提总结道:“我喜欢颠覆,但我也意识到大多数人更喜欢不被打扰。”他强调,AdaKWS旨在提升和改善现有的业务运营,而非取而代之。