WellSaid Labs,人工智慧(AI)語音技術的領先者,推出了一款創新工具,讓用戶能夠以更自然和細緻的方式指導AI語音表現。這項名為HINTS(高度直觀、自然量身定制的語音)新功能,使用內容註解(如語速和音量調整)賦予內容創作者自定義AI語音的能力,猶如電影導演操控場景。
WellSaid Labs的聯合創始人兼CTO Michael Petrochuk在一次獨家訪問中表示:“我們的客戶希望對我們AI的語音輸出有更大的控制權。我們的目標是創造一個直觀且自然的系統,使我們的模型能根據用戶情境預測真實的表現,幫助創作者實現他們的藝術願景。”
HINTS顯著不同於傳統的僵硬標記語言或基本提示控制AI語音的方法。這項新技術允許用戶進行細緻且可插值的調整,例如將特定段落的速度降低至0.7倍或將音量提高5分貝,而AI語音則能無縫響應。其情境意識使用户可以在長篇劇本中進行註解的分層和嵌套。
“系統使用實際的人類數據(經同意獲取)進行音頻輸出,讓其註解的語言表達與未註解的同樣真實,”Petrochuk解釋道。“值得注意的是,我們發現該模型不僅能有效利用單一數據集,還能在來自多位講者的表現中進行概括,以增強其韻律。這一發現超出了我們的預期,顯示了未來研究的潛力。”
HINTS滿足了對高度自定義及以導演為中心的AI語音工具的需求,有望徹底改變有聲書、培訓模塊、行銷影片等語音內容。初步評估顯示其準確性和自然性得到了改善。
研究也優先考慮負責任和倫理的AI實踐。“從一開始,我們就致力於倫理創新,”Petrochuk指出。WellSaid確保語音貢獻者的明確同意,保障隱私,並對內容進行審核以防止誤用。
隨著語音AI愈發融入消費科技和娛樂,HINTS展示了這項技術如何作為同理心的叙事媒介,而不僅僅是一個語音工具。雖然與人類才能相比仍有局限,但像HINTS這樣的創新讓我們更接近實現真正富有表現力的合成聲音。