aiOla 推出 Whisper-Medusa:革命性的語音辨識模型
今日,以色列 AI 初創公司 aiOla 揭幕了 Whisper-Medusa,一款突破性的開源語音辨識模型,其運行速度比 OpenAI 的熱門 Whisper 快 50%。
Whisper-Medusa 利用創新的「多頭注意力」架構,能夠同時預測多個標記,顯著提高了運算速度。該模型的代碼與權重已在 Hugging Face 上以 MIT 授權方式發布,支援研究與商業應用。
通過開源這一解決方案,aiOla 鼓勵 AI 社群內的創新與合作。aiOla 研究副總裁 Gill Hetz 表示,「這能讓開發者和研究者在我們的基礎上進一步提升速度。」這些進展可能為 AI 系統鋪平道路,使其能夠近乎實時地理解和響應用戶詢問。
Whisper-Medusa 的獨特之處
隨著基礎模型產出日益多樣的內容,先進的語音辨識技術顯得至關重要。這項技術在醫療和金融科技等多個行業中不可或缺,促進轉錄等任務的執行,並驅動複雜的多模態 AI 系統。去年,OpenAI 的 Whisper 模型將用戶音頻轉換為文本,供大型語言模型 (LLMs) 處理,隨後返回語音回答。
Whisper 已成為語音辨識的黃金標準,幾乎實時地處理複雜的語音模式和口音。每月超過 500 萬次的下載,支援數萬個應用程式。
現在,aiOla 宣稱 Whisper-Medusa 實現了更快的語音辨識和轉錄。通過在 Whisper 架構中增強多頭注意力機制,該模型在每次運算中可以預測十個標記,而非一個,從而使預測速度和運行效率提高 50%。
aiOla Whisper-Medusa 對比 OpenAI Whisper
儘管速度有所提升,Whisper-Medusa 仍保持與原始 Whisper 模型相同的準確性,這歸功於其基礎架構。Hetz 表示:「我們是業界首個將這一方法應用於自動語音辨識 (ASR) 模型並公開發布供研究使用的公司。」
「提高大型語言模型的速度比優化 ASR 系統容易。持續音頻信號和噪音的複雜性帶來了獨特挑戰。通過我們的多頭注意力方法,我們幾乎將預測速度翻倍,並未妥協準確性。」Hetz 解釋道。
Whisper-Medusa 的訓練方法
aiOla 在訓練 Whisper-Medusa 時採用了弱監督機器學習技術。通過凍結 Whisper 的主要組件,利用模型自身生成的音頻轉錄作為標籤來訓練附加的標記預測模組。
Hetz 提到他們先從一個 10 頭模型開始,計劃擴展到能同時預測 20 個標記的 20 頭版本,這將進一步加快辨識和轉錄速度,同時保持準確性。他表示,「這一方法允許同時有效處理整個語音音頻,降低多次運算的需求,進一步提升速度。」
雖然 Hetz 對特定公司的提前訪問保持謹慎,但他確認已測試真實企業數據用例,以驗證實際應用中的性能。預期辨識和轉錄速度的提升將促進語音應用中的快速回應。想像一下,類似 Alexa 的 AI 助手幾秒鐘內便能提供回答。
「這個行業將從實時語音轉文本系統中獲益良多,提升生產力,降低成本,加快內容交付速度。」Hetz 結論道。