Meta的圖像生成模型擴展:新增視頻與升級影像編輯功能

Meta在生成AI領域取得了重大進展,推出了升級版的圖像生成基礎模型Emu(Expressive Media Universe)。這個強大的模型能夠根據文本生成視頻,並具備更精確的圖像編輯功能。

Emu的技術首次在九月的Meta Connect活動中展示,為Meta社交媒體平台上的多元生成AI體驗奠定了基礎。例如,它增強了Instagram上的圖像編輯工具,使用戶能夠輕鬆地更改照片的視覺風格或背景。Emu還整合進Meta AI,這是一個與OpenAI的ChatGPT類似的用戶助手平台。

全新的Emu Video模型突顯其雙重能力,能根據自然語言文字、圖像或兩者的組合生成視頻。與依賴五個擴散模型的先前模型Make-a-Video不同,Emu Video採用簡化的兩步驟方法:首先根據文本提示生成圖像,然後基於文本和圖像提示創建視頻。這一簡化方法使視頻生成模型的訓練更為高效。在用戶研究中,Emu Video在質量上超過Make-a-Video,96%的參與者更喜歡其質量,85%的人認為它更符合他們的文本提示。此外,Emu Video能根據用戶上傳的圖像和特定文本提示進行動畫化。

另一項令人期待的更新是Emu Edit的推出,它利用自然語言指令提升圖像編輯能力。用戶可以上傳圖像並指定希望的調整。例如,他們可以要求移除一個如貴賓犬的元素,並用一個紅色長椅替換,只需輸入請求即可。雖然已經存在如Stable Diffusion驅動的ClipDrop等AI圖像編輯工具,但Meta的研究人員指出,現有方法往往導致過度修改或編輯性能不足。

在一篇博客文章中,Meta強調目標不僅是創造一個“可信”的圖像,而是專注於準確修改與用戶特定請求相關的像素。研究團隊發現,將計算機視覺任務整合作為圖像生成模型的指令,能在編輯過程中提供無與倫比的控制力。

為了發展Emu Edit,Meta使用了一套包含1000萬張合成圖像的綜合數據集,每張圖像都包含一個輸入圖像,詳細的任務描述,以及目標輸出圖像。這使得模型能夠緊密遵循用戶指令,同時保持原始圖像中不相關元素的完整性。

對於有興趣探索Emu Edit功能的人,可以在Hugging Face上查看生成的圖像。此外,Meta還推出了Emu Edit測試集,這是一個新基準,旨在進一步測試圖像編輯模型。這個測試集包含七種不同的圖像編輯任務,如背景更改和物體移除,為精確圖像編輯技術的進步鋪平道路。

Most people like

Find AI tools in YBX