轉型語音識別人工智慧:aiOla創新的行業術語掌握方法

語音識別是多模態人工智能系統的重要組成部分。儘管許多企業急於採用這項技術,但特定行業術語的準確解釋仍面臨挑戰。以色列創新初創公司aiOla在解決這一問題上取得了顯著進展。該公司推出了一種新的方法,旨在幫助語音識別模型更好地理解針對特定行業的專業詞彙。

此項發展提升了語音識別系統的準確性和反應能力,使其在複雜的企業環境中更加有效,即使在困難的聲學條件下也能表現出色。在其初步案例研究中,aiOla對OpenAI的Whisper模型進行了調整,成功降低了其詞錯率並提高了整體檢測準確性。

語音識別中的行業術語挑戰

近年來,深度學習的進步促使高效自動語音識別(ASR)和轉錄系統的出現。OpenAI的Whisper因其在英語語音識別中的堅韌性和準確性而受到廣泛關注。然而,自2022年推出以來,許多人注意到Whisper在現實場景中的表現會受限於嘈雜環境,影響準確的音頻解釋。例如,在重型機械噪音中解讀安全警報,或理解像醫療和法律領域那樣充滿專業術語的命令,都是一項挑戰。

使用先進ASR模型(如Whisper)的組織往往努力將其系統量身定制以滿足獨特行業需求。儘管這種微調可以提高性能,但通常會在時間和財務資源上產生成本。

"微調ASR模型需要數天及數千美元——這是建立在已有數據的基礎上。如果沒有,收集和標記音頻數據可能需要數月,且花費高達數萬美元," aiOla的研究副總裁Gil Hetz表示。

為了解決這些挑戰,aiOla開發了一種兩步驟的“上下文偏見”方法。首先,AdaKWS關鍵詞檢測模型從語音樣本中識別行業特定的術語。然後,這些識別出的關鍵詞指導ASR解碼器將這些詞彙整合到最終的轉錄文本中,增強模型對專業語言的識別能力。

在初步測試中,aiOla使用Whisper並測試了兩種技術以提高性能:KG-Whisper(關鍵詞引導的Whisper)和KG-Whisper-PT(提示調整)。這兩種調整在各種數據集上均表現出相比於原始Whisper模型的改進,即使在挑戰性的聲學環境中亦是如此。

“我們的新模型(KG-Whisper-PT)顯著降低了詞錯率(WER),並提高了準確性(F1分數)。在醫療數據集的測試中,它的F1分數達到了96.58,而Whisper為80.50,WER為6.15,相比Whisper的7.33更具優勢,”Hertz說道。

這一方法與各種ASR模型兼容。儘管aiOla使用了Whisper,但同樣的方法可以應用於Meta的MMS及其他專有語音轉文本模型,使企業能夠在無需重新訓練的情況下創建量身定制的識別系統。只需提供一份行業特定術語的清單給關鍵詞檢測器即可。

“這一模型實現了完整的ASR能力,準確識別術語。我們能夠透過僅改變術語詞彙,而無需重新訓練整個系統,以快速適應不同的行業。從本質上說,它是一個零樣本模型,能夠在訓練期間未見特定範例的情況下進行預測,”Hertz解釋道。

為財富500強企業節省時間的好處

憑藉其適應性,aiOla的方法可惠及許多使用專業術語的行業,包括航空、運輸、製造和物流。該公司已開始與財富500強客戶部署其自適應模型,顯著提高其在處理術語繁多的流程中的效率。

例如,一家全球前50名航運和物流領導者利用aiOla的模型自動化每日的卡車檢查,將每次檢查時間從約15分鐘縮減到不足60秒。同樣,加拿大一家領先的雜貨連鎖店利用該模型監測產品和肉類的溫度,預計每年節省時間高達110,000小時,預期儲蓄超過250萬美元,並實現5倍的投資回報率。

aiOla分享了其研究,希望能激勵其他研究團隊在人工智能領域的進一步突破。然而,目前該公司並未對調整後的模型提供API訪問或發布其權重。企業只能通過aiOla的訂閱產品套件訪問這項技術。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles