Meta AI 研究人員宣布推出無縫溝通(Seamless Communication),這是一套革新的人工智慧模型,旨在促進自然的跨語言交流,邁向通用語音翻譯器的目標。本週,這些模型連同詳細的研究論文和數據一併發布。
作為旗艦模型,無縫整合了三個其他模型的特性——無縫表達(SeamlessExpressive)、無縫串流(SeamlessStreaming)及無縫多語翻譯 v2(SeamlessM4T v2),形成一個整合的系統。研究表明,無縫是“首個公開可用的實時表達跨語言溝通系統”。
無縫如何改變溝通
無縫突破了人工智慧驅動溝通的界限,支持超過100種口語和書寫語言的實時翻譯。它保持講者的聲音風格、情感和韻律,提升口語表達。
- 無縫表達:此模型注重翻譯中的情感和風格元素,解決了傳統翻譯工具經常產生機械、單調輸出的常見限制。
- 無縫串流:此模型擁有約兩秒的延遲,並被譽為“首個大規模多語言模型”,在近100種語言中實現快速翻譯。
- 無縫多語翻譯 v2:作為其他模型的基礎,此升級版增強了“文本和語音輸出之間的一致性”。
整體而言,研究人員認為無縫代表了將通用語音翻譯器的概念從科幻變為現實的重要進展。
改變全球溝通
這些模型的潛在應用相當廣泛,能夠支援創新的語音交流解決方案——從透過智慧眼鏡進行的實時多語言討論,到自動配音視頻和播客。這項技術有助於填補移民和其它面臨溝通挑戰者的語言鴻溝。
研究人員將研究成果公之於眾,鼓勵進一步發展,以增進在日益互聯的世界中的多語言連結。然而,他們也意識到濫用的風險,如語音釣魚和深度偽造,並引入了音頻水印等安全措施以減輕這些威脅。
在 Hugging Face 和 GitHub 上的公開發布
符合其對開放研究的承諾,Meta 將無縫溝通模型上傳至 Hugging Face 和 GitHub,包括無縫、無縫表達、無縫串流及無縫多語翻譯 v2 模型,以及重要的元數據。
藉由分享這些尖端的自然語言處理模型,Meta 旨在賦能研究人員和開發者,推動這項技術的擴展,促進不同語言和文化之間的連結。這一舉措鞏固了Meta作為開源人工智慧領導者的地位,並為研究社群提供了寶貴的資源。
研究人員總結道:“整體而言,無縫所可能引發的多維體驗有望在機器輔助跨語言溝通上帶來顯著進展。”