Assembly AI 推出 Universal-1 模型，與 Whisper 相比，幻覺現象減少了 30%

Home AI新聞 Assembly AI 推出 Universal-1 模型，與 Whisper 相比，幻覺現象減少了 30%

AI即服務提供商Assembly AI推出了最新的語音識別模型——Universal-1。該模型以超過1250萬小時的多語言音頻數據進行訓練，實現了英語、法語、德語和西班牙語的卓越語音轉文本準確率。公司聲稱，Universal-1在語音數據中的幻覺率降低了30%，在環境噪音中降低了90%，與OpenAI的Whisper Large-v3模型相比，更加出色。

在最近的一篇部落格文章中，Assembly AI形容Universal-1是實現準確、可靠和穩健的多語言語音轉文本能力的重要一步。該模型能夠有效地進行語言切換，在單一音頻文件中同時轉錄多種語言。

Universal-1在時間戳估算方面表現優異，這對音頻和視頻編輯及對話分析至關重要。與其前身Conformer-2相比，提升了13%的準確性，並且其串聯最小置換字錯誤率(cpWER)達到了14%的改善。此外，講者數量的估算準確率亦上升至71%。

該模型還具備優化的平行推理功能，顯著縮短了長音頻文件的處理時間。在Nvidia Tesla T4機器上，Universal-1僅需21秒便可轉錄一小時音頻，速度比Whisper Large-v3快五倍，後者需耗時107秒完成相同任務，且使用的批量較小。

增強版的語音轉文本AI模型提供了多項優勢，包括更準確且可靠的筆記生成、行動項目的識別，以及對元數據如專有名詞、講者識別和時間戳的排序能力。這一改進將促進多種應用的發展，從AI驅動的視頻編輯到需要精確臨床筆記錄入和索賠提交的遠程醫療平台。

Universal-1模型目前已通過Assembly AI的API提供訪問。

Perplexity的增長挑戰了SEO的關注，揭示了Google主導地位的弱點。

Meta的圖像生成器在呈現混血情侶和友誼方面面臨挑戰

Most people like

TranslateImage

64.1K

將圖像轉換為多種語言，而不改變其原始文本格式。此過程確保內容的視覺完整性得以維持，同時使其能夠被全球多元化的受眾所理解。探索如何無縫地翻譯圖像，增強跨語言障礙的交流。

影像翻譯 Translate

Objective, Inc

11.2K

介紹我們專為網路和行動應用程式設計的AI原生搜尋API。透過尖端的搜尋功能，提升您的用戶體驗，利用人工智能提供高度相關的結果。我們的API優化了搜尋效率，確保無縫整合並提升應用程式的互動性。今天就解鎖智能搜尋功能的潛能！

AI原生 AI Search Engine

Clockwise

225K

解鎖 AI 驅動的日曆優化潛力，以獲得更靈活、更專注的工作體驗。精簡您的時間表，提高生產力，並利用智能排程解決方案最大化您的時間，滿足您動態工作流程的需求。

人工智慧 AI Product Description Generator

Readable

95.4K

輕鬆即時翻譯PDF檔案，選擇Readable。不論您是工作、學習或個人使用需要快速翻譯，Readable都能簡化過程，使其更易於使用且高效。

人工智慧 Translate

Find AI tools in YBX