將口語轉換為文本的能力常常被低估,特別是aiOla這家以色列科技初創公司自2020年成立以來,推出的新型AdaKWS模型,其快速且準確的表現令人矚目。
AdaKWS提升了OpenAI的Whisper AI語音轉文本模型,在16種語言中的關鍵字檢測準確率提高了6.2%,英語單獨提升超過16%。根據aiOla的數據,該模型在關鍵字識別中的準確率達到了94.6%,超越了Whisper的88.4%。AdaKWS支持100種語言的近實時轉錄。
儘管這些數據最初看似平凡,實則代表著準確率從80百分位提升至90百分位的重要飛躍。這一升級使該技術從小眾應用轉向更廣泛的使用場景,即使是在高度監管的行業,如醫療和食品安全中也得到應用。
值得一提的是,根據aiOla的數據,AdaKWS的轉錄速度比Whisper-Large V2模型快約160倍。aiOla的CEO兼聯合創始人Amir Haramaty表示:「識別關鍵字的能力使各行各業的日常流程自動化成為可能,從填寫包裹損壞報告到完成食品工廠的安全檢查,將語音轉換為行動。」
多樣化的企業應用
雖然人們通常將語音轉文本AI與客戶服務通話的轉錄任務聯繫在一起,但aiOla的技術也在非傳統領域取得了進展。在一場媒體展示中,Haramaty展示了該系統在醫療環境中的能力。一位健康科技演講者閱讀患者監測設備的指標,而AdaKWS模型在幾秒鐘內自動填寫了複雜的文本表格,無需手動輸入。
此外,aiOla還突出了其在監測超市冰箱溫度方面的應用。透過允許人工監控人員口頭報告讀數,該系統每年為客戶節省超過11萬小時,這些時間本來需要用於手動數據輸入。
AdaKWS的潛力吸引了行業領袖的關注;Haramaty提到,Oracle的CEO Larry Ellison打了電話表達對將該技術應用於醫療記錄的興趣。
AdaKWS語音轉文本的運作原理
AdaKWS採用了前沿的關鍵字檢測方法,無縫集成到業務工作流程中,允許通過語音命令進行自動化。它作為一種機器學習算法,加強了現有的語音轉文本模型,如OpenAI的Whisper,並將自身融入模型的編碼器(負責詮釋口語)和解碼器(將音訊轉換為文本)之間。
aiOla首席科學家Joseph Keshet解釋說:“我們的重點是優化。”
與傳統模型需要廣泛重新訓練以適應新關鍵字不同,AdaKWS能迅速調整以支持超過100種語言和方言,使其成為企業環境的理想選擇。Haramaty指出:“行業特定術語普遍存在,並且可能主導溝通。”Keshet補充說:“我們的系統經過訓練,確保這些關鍵字的準確性,並在潛在空間中有效地跨語言泛化。”
對於多語言交互頻繁的組織來說,AdaKWS尤其有助於迅速調整以適應行業特有的術語。用戶可以提交關鍵字列表,讓模型自主學習,即使在未接觸口語版本之前,該模型也能檢測相關術語。
該模型可在數小時內準備就緒,能迅速學習新語言、流程和關鍵字。
在對16種語言的基準測試中,AdaKWS不僅超越了Whisper的準確性,還高效處理複雜術語,使用的計算資源也更少。相關研究於2023年9月發表在科學期刊上。
提升商業運營
隨著企業愈加尋求高效且可靠的解決方案以管理複雜的數據和通信任務,aiOla的AdaKWS為簡化業務運作並減少開支帶來了重要機會。該技術可通過網路和移動應用程序獲得,基於用戶和用例採用軟件即服務(SaaS)訂閱模式。
aiOla在語音AI方面的進展不僅樹立了行業新標準,還為未來創新鋪平了道路,促進AI與日常業務流程的整合。
Haramaty最後強調:“我喜歡破壞性創新,但我逐漸意識到大多數人其實更喜歡不被打擾。”他指出,AdaKWS旨在增強和改善現有的商業運營,而非取而代之。