AI即服務提供商Assembly AI推出了最新的語音識別模型——Universal-1。該模型以超過1250萬小時的多語言音頻數據進行訓練,實現了英語、法語、德語和西班牙語的卓越語音轉文本準確率。公司聲稱,Universal-1在語音數據中的幻覺率降低了30%,在環境噪音中降低了90%,與OpenAI的Whisper Large-v3模型相比,更加出色。
在最近的一篇部落格文章中,Assembly AI形容Universal-1是實現準確、可靠和穩健的多語言語音轉文本能力的重要一步。該模型能夠有效地進行語言切換,在單一音頻文件中同時轉錄多種語言。
Universal-1在時間戳估算方面表現優異,這對音頻和視頻編輯及對話分析至關重要。與其前身Conformer-2相比,提升了13%的準確性,並且其串聯最小置換字錯誤率(cpWER)達到了14%的改善。此外,講者數量的估算準確率亦上升至71%。
該模型還具備優化的平行推理功能,顯著縮短了長音頻文件的處理時間。在Nvidia Tesla T4機器上,Universal-1僅需21秒便可轉錄一小時音頻,速度比Whisper Large-v3快五倍,後者需耗時107秒完成相同任務,且使用的批量較小。
增強版的語音轉文本AI模型提供了多項優勢,包括更準確且可靠的筆記生成、行動項目的識別,以及對元數據如專有名詞、講者識別和時間戳的排序能力。這一改進將促進多種應用的發展,從AI驅動的視頻編輯到需要精確臨床筆記錄入和索賠提交的遠程醫療平台。
Universal-1模型目前已通過Assembly AI的API提供訪問。