aiOla 發布全新超快速「多頭」語音識別模型，性能超越 OpenAI Whisper

Home AI新聞 aiOla 發布全新超快速「多頭」語音識別模型，性能超越 OpenAI Whisper

aiOla 推出 Whisper-Medusa：革命性的語音辨識模型

今日，以色列 AI 初創公司 aiOla 揭幕了 Whisper-Medusa，一款突破性的開源語音辨識模型，其運行速度比 OpenAI 的熱門 Whisper 快 50%。

Whisper-Medusa 利用創新的「多頭注意力」架構，能夠同時預測多個標記，顯著提高了運算速度。該模型的代碼與權重已在 Hugging Face 上以 MIT 授權方式發布，支援研究與商業應用。

通過開源這一解決方案，aiOla 鼓勵 AI 社群內的創新與合作。aiOla 研究副總裁 Gill Hetz 表示，「這能讓開發者和研究者在我們的基礎上進一步提升速度。」這些進展可能為 AI 系統鋪平道路，使其能夠近乎實時地理解和響應用戶詢問。

Whisper-Medusa 的獨特之處

隨著基礎模型產出日益多樣的內容，先進的語音辨識技術顯得至關重要。這項技術在醫療和金融科技等多個行業中不可或缺，促進轉錄等任務的執行，並驅動複雜的多模態 AI 系統。去年，OpenAI 的 Whisper 模型將用戶音頻轉換為文本，供大型語言模型 (LLMs) 處理，隨後返回語音回答。

Whisper 已成為語音辨識的黃金標準，幾乎實時地處理複雜的語音模式和口音。每月超過 500 萬次的下載，支援數萬個應用程式。

現在，aiOla 宣稱 Whisper-Medusa 實現了更快的語音辨識和轉錄。通過在 Whisper 架構中增強多頭注意力機制，該模型在每次運算中可以預測十個標記，而非一個，從而使預測速度和運行效率提高 50%。

aiOla Whisper-Medusa 對比 OpenAI Whisper

儘管速度有所提升，Whisper-Medusa 仍保持與原始 Whisper 模型相同的準確性，這歸功於其基礎架構。Hetz 表示：「我們是業界首個將這一方法應用於自動語音辨識 (ASR) 模型並公開發布供研究使用的公司。」

「提高大型語言模型的速度比優化 ASR 系統容易。持續音頻信號和噪音的複雜性帶來了獨特挑戰。通過我們的多頭注意力方法，我們幾乎將預測速度翻倍，並未妥協準確性。」Hetz 解釋道。

Whisper-Medusa 的訓練方法

aiOla 在訓練 Whisper-Medusa 時採用了弱監督機器學習技術。通過凍結 Whisper 的主要組件，利用模型自身生成的音頻轉錄作為標籤來訓練附加的標記預測模組。

Hetz 提到他們先從一個 10 頭模型開始，計劃擴展到能同時預測 20 個標記的 20 頭版本，這將進一步加快辨識和轉錄速度，同時保持準確性。他表示，「這一方法允許同時有效處理整個語音音頻，降低多次運算的需求，進一步提升速度。」

雖然 Hetz 對特定公司的提前訪問保持謹慎，但他確認已測試真實企業數據用例，以驗證實際應用中的性能。預期辨識和轉錄速度的提升將促進語音應用中的快速回應。想像一下，類似 Alexa 的 AI 助手幾秒鐘內便能提供回答。

「這個行業將從實時語音轉文本系統中獲益良多，提升生產力，降低成本，加快內容交付速度。」Hetz 結論道。

33.1K

介紹我們最前沿的 AI 寫作工具，專為產出不易被檢測的無抄襲內容而設計。體驗先進技術的強大，確保每篇作品的原創性與創造力，滿足您的獨特寫作需求，同時提升您的網絡形象。了解我們的隱形 AI 寫作工具如何輕鬆提升您的內容策略。

AI寫作工具 AI Rewriter

616K

RunPod 是一個全球領先的云平台，專為人工智能推斷和訓練而設，具備強大的 GPU 支持。我們的服務使開發者和數據科學家能夠高效利用尖端技術，確保快速且可擴展的機器學習解決方案。體驗 RunPod 提供的無縫性能和最佳資源利用。

GPU租賃 Other

354.2K

Frase 是一款創新的 SEO 工具，旨在幫助用戶創建高質量的內容，讓其在 Google 上有效排名。

搜索引擎優化 AI SEO Assistant

68.7M

Grammarly - 提升您的寫作技巧，使用先進的 AI 寫作輔助工具自信溝通。非常適合任何希望改善寫作的清晰度和吸引力的人！

AI 寫作輔助工具 AI Grammar Checker

Find AI tools in YBX