Meta推出新型AI模型,進行音頻、文本和水印創新

Meta的基礎人工智能研究(FAIR)團隊近日揭示了數個新的AI模型和工具,專注於音頻生成、文本視覺化能力及水印技術。Meta在新聞稿中表示:「我們希望透過公開分享早期研究,激發創新並以負責任的方式推進AI的發展。」

音頻創建模型:JASCO與水印工具

Meta推出了JASCO,代表「聯合音頻與符號條件下的時間控制文本對音樂生成」。該模型通過允許用戶輸入各種元素,如和弦或節拍,來提高音頻創作的靈活性,以精煉最終輸出。FAIR的研究顯示,JASCO使用戶能夠通過文本指令調整生成音頻的特徵,如和弦、鼓聲和旋律,從而實現所需音效。

FAIR將在其AudioCraft AI音頻模型庫中以MIT許可證發布JASCO推理代碼,而預訓練模型將以非商業性的創用CC許可證提供。此外,Meta還推出了AudioSeal,這是一個創新的工具,能為AI生成的語音添加水印,幫助更有效地識別此類內容。Meta指出:「AudioSeal是專為本地檢測AI生成語音而設計的首個音頻水印技術,能在較長音頻文件中識別AI創作的段落。」這項工具提高了檢測效率,據報導相比傳統方法,檢測速度提升了485倍。與其他模型不同,AudioSeal將以商業許可證發布。

變色龍模型發布

FAIR還計劃以研究專用許可證發布兩個版本的多模態文本模型Chameleon,分別為Chameleon 7B和34B,旨在進行需要視覺和文本理解的任務,比如圖像標題生成。然而,Meta宣佈將不會在此時提供Chameleon的圖像生成模型,限制了對文本相關功能的訪問。

此外,研究人員將獲得一種多標記預測方法,該方法能同時訓練語言模型預測多個未來的單詞,而非依序進行。該功能將僅在非商業和研究專用許可證下提供。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles