OpenAI的Whisper v3：為商業應用提供升級的語音識別解決方案

Home AI新聞 OpenAI的Whisper v3：為商業應用提供升級的語音識別解決方案

隨著語音識別技術的顯著進步，OpenAI的Whisper v3大幅提升了語言理解能力並降低了錯誤率，這一成就源於五百萬小時的訓練數據。這款創新的開源模型旨在幫助企業提升客戶服務體驗及其他應用。近期在OpenAI的DevDay上正式發布的Whisper v3，展示了在多種語言中的改進性能，特別是引入了專用的廣東話語言標記。

自2022年9月首次推出以來，Whisper已經證明其在將音頻片段轉換為文本方面的實用性，提供語音翻譯、語言識別和語音活動檢測等功能，使其成為語音助手的理想選擇。企業可以輕鬆使用Whisper轉錄客戶電話或創建音頻內容的文本版本。將Whisper與OpenAI的最新文本生成模型如GPT-4 Turbo相結合，為開發強大的雙模態應用程式提供了新機會，無縫結合語音識別與文本生成。

OpenAI的開發者體驗負責人Romain Huet展示了這些整合的潛力。他利用Whisper將語音輸入轉錄為文本，並與GPT-4 Turbo模型結合，展示了一個能夠發聲的智能助手，這也得益於新的文本轉語音API。

Whisper v3的突出之處不僅在於其訓練數據的龐大—五百萬小時，相較於前一版本的六十八萬小時大幅提升，更在於其先進的訓練方法。這一音頻數據中約有一百萬小時為弱標記數據，只標記聲音的存在，而四百萬小時則是通過預測建模技術進行了伪標記。

該模型採用了Transformer架構，能夠有效處理音頻數據的token序列，解碼推出有意義的文本輸出。它將音頻輸入細分為易於管理的片段，從而準確識別所講內容。

為滿足各種應用需求，Whisper v3提供多個模型大小選擇。最小的Tiny模型擁有3900萬個參數，運行需要約1 GB的VRAM。基礎模型擁有7400萬個參數，處理速度約為之前版本的16倍。最大的版本Large則擁有驚人的15.5億個參數，部署需要約10 GB的VRAM。

在Common Voice 15和Fleurs等音頻基準上的廣泛測試顯示，Whisper v3的錯誤率相比於2022年12月發布的先前版本顯著降低。OpenAI的首席執行官Sam Altman在其主題演講中表達了對新Whisper的信心，聲稱：「我們認為你們會真的喜歡它。」

如何訪問Whisper v3？

Whisper v3可通過Hugging Face或GitHub等平台公開訪問，為商業利用提供了可能，根據MIT許可證進行的實施需遵循許可證中列出的具體條件，包括在所有分發版本中必須包含必要的版權及許可通知。

值得注意的是，雖然該許可證允許廣泛使用，但同時不提供任何保證，並限制了作者或版權持有人對於因實施而產生的潛在問題的責任。儘管Whisper是開源的，OpenAI已宣布計劃在不久的將來通過其API支持最新版本的自動語音識別模型。

儘管Whisper v3在性能上實現了顯著飛躍，OpenAI承認在訓練數據有限的語言中其準確性可能下降。此外，不同的口音和方言還帶來了挑戰，可能導致詞語錯誤率增加。

OpenAI 解雇首席執行官山姆·奧特曼：這對人工智慧的未來意味著什麼

AI新聞快報：YouTube推出AI修改影片標籤

Most people like

ChatUML

50.6K

輕鬆將您的想法轉化為清晰且引人入勝的圖表。

AI 副駕駛 AI Diagram Generator

Slite

353.7K

探索Slite，一個以人工智能驅動的知識庫，旨在讓您輕鬆獲取可靠的公司資訊，盡在指尖。

人工智慧驅動的知識庫 AI Knowledge Base

Lettria

14K

Lettria是一個創新的無程式碼人工智慧平台，旨在幫助使用者有效地結構化和分析文本數據。

無需編碼的AI平台 AI Chatbot

Contrast

98.2K

以流暢且引人入勝的網路研討會吸引您的觀眾。

網絡研討會 AI Analytics Assistant

Find AI tools in YBX