OpenAI的Whisper v3:為商業應用提供升級的語音識別解決方案

隨著語音識別技術的顯著進步,OpenAI的Whisper v3大幅提升了語言理解能力並降低了錯誤率,這一成就源於五百萬小時的訓練數據。這款創新的開源模型旨在幫助企業提升客戶服務體驗及其他應用。近期在OpenAI的DevDay上正式發布的Whisper v3,展示了在多種語言中的改進性能,特別是引入了專用的廣東話語言標記。

自2022年9月首次推出以來,Whisper已經證明其在將音頻片段轉換為文本方面的實用性,提供語音翻譯、語言識別和語音活動檢測等功能,使其成為語音助手的理想選擇。企業可以輕鬆使用Whisper轉錄客戶電話或創建音頻內容的文本版本。將Whisper與OpenAI的最新文本生成模型如GPT-4 Turbo相結合,為開發強大的雙模態應用程式提供了新機會,無縫結合語音識別與文本生成。

OpenAI的開發者體驗負責人Romain Huet展示了這些整合的潛力。他利用Whisper將語音輸入轉錄為文本,並與GPT-4 Turbo模型結合,展示了一個能夠發聲的智能助手,這也得益於新的文本轉語音API。

Whisper v3的突出之處不僅在於其訓練數據的龐大—五百萬小時,相較於前一版本的六十八萬小時大幅提升,更在於其先進的訓練方法。這一音頻數據中約有一百萬小時為弱標記數據,只標記聲音的存在,而四百萬小時則是通過預測建模技術進行了伪標記。

該模型採用了Transformer架構,能夠有效處理音頻數據的token序列,解碼推出有意義的文本輸出。它將音頻輸入細分為易於管理的片段,從而準確識別所講內容。

為滿足各種應用需求,Whisper v3提供多個模型大小選擇。最小的Tiny模型擁有3900萬個參數,運行需要約1 GB的VRAM。基礎模型擁有7400萬個參數,處理速度約為之前版本的16倍。最大的版本Large則擁有驚人的15.5億個參數,部署需要約10 GB的VRAM。

在Common Voice 15和Fleurs等音頻基準上的廣泛測試顯示,Whisper v3的錯誤率相比於2022年12月發布的先前版本顯著降低。OpenAI的首席執行官Sam Altman在其主題演講中表達了對新Whisper的信心,聲稱:「我們認為你們會真的喜歡它。」

如何訪問Whisper v3?

Whisper v3可通過Hugging Face或GitHub等平台公開訪問,為商業利用提供了可能,根據MIT許可證進行的實施需遵循許可證中列出的具體條件,包括在所有分發版本中必須包含必要的版權及許可通知。

值得注意的是,雖然該許可證允許廣泛使用,但同時不提供任何保證,並限制了作者或版權持有人對於因實施而產生的潛在問題的責任。儘管Whisper是開源的,OpenAI已宣布計劃在不久的將來通過其API支持最新版本的自動語音識別模型。

儘管Whisper v3在性能上實現了顯著飛躍,OpenAI承認在訓練數據有限的語言中其準確性可能下降。此外,不同的口音和方言還帶來了挑戰,可能導致詞語錯誤率增加。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles