Meta的圖像生成模型擴展：新增視頻與升級影像編輯功能

Home AI新聞 Meta的圖像生成模型擴展：新增視頻與升級影像編輯功能

Meta在生成AI領域取得了重大進展，推出了升級版的圖像生成基礎模型Emu（Expressive Media Universe）。這個強大的模型能夠根據文本生成視頻，並具備更精確的圖像編輯功能。

Emu的技術首次在九月的Meta Connect活動中展示，為Meta社交媒體平台上的多元生成AI體驗奠定了基礎。例如，它增強了Instagram上的圖像編輯工具，使用戶能夠輕鬆地更改照片的視覺風格或背景。Emu還整合進Meta AI，這是一個與OpenAI的ChatGPT類似的用戶助手平台。

全新的Emu Video模型突顯其雙重能力，能根據自然語言文字、圖像或兩者的組合生成視頻。與依賴五個擴散模型的先前模型Make-a-Video不同，Emu Video採用簡化的兩步驟方法：首先根據文本提示生成圖像，然後基於文本和圖像提示創建視頻。這一簡化方法使視頻生成模型的訓練更為高效。在用戶研究中，Emu Video在質量上超過Make-a-Video，96%的參與者更喜歡其質量，85%的人認為它更符合他們的文本提示。此外，Emu Video能根據用戶上傳的圖像和特定文本提示進行動畫化。

另一項令人期待的更新是Emu Edit的推出，它利用自然語言指令提升圖像編輯能力。用戶可以上傳圖像並指定希望的調整。例如，他們可以要求移除一個如貴賓犬的元素，並用一個紅色長椅替換，只需輸入請求即可。雖然已經存在如Stable Diffusion驅動的ClipDrop等AI圖像編輯工具，但Meta的研究人員指出，現有方法往往導致過度修改或編輯性能不足。

在一篇博客文章中，Meta強調目標不僅是創造一個“可信”的圖像，而是專注於準確修改與用戶特定請求相關的像素。研究團隊發現，將計算機視覺任務整合作為圖像生成模型的指令，能在編輯過程中提供無與倫比的控制力。

為了發展Emu Edit，Meta使用了一套包含1000萬張合成圖像的綜合數據集，每張圖像都包含一個輸入圖像，詳細的任務描述，以及目標輸出圖像。這使得模型能夠緊密遵循用戶指令，同時保持原始圖像中不相關元素的完整性。

對於有興趣探索Emu Edit功能的人，可以在Hugging Face上查看生成的圖像。此外，Meta還推出了Emu Edit測試集，這是一個新基準，旨在進一步測試圖像編輯模型。這個測試集包含七種不同的圖像編輯任務，如背景更改和物體移除，為精確圖像編輯技術的進步鋪平道路。

利用AI框架減輕生成式人工智慧風險：來自2023年奧斯汀應用智慧大會的見解

OpenAI 解雇首席執行官山姆·奧特曼：這對人工智慧的未來意味著什麼

Most people like

MagiScan

35.3K

將您的智慧型手機變成強大的 3D 創作工具！只需輕觸幾下，您就可以將日常物品轉換為令人驚嘆的 3D 模型。

3D掃描 AI 3D Model Generator

Gladia

177.3K

革命性AI驅動的轉錄、翻譯和音頻智能增強技術。

語音轉文字 AI Product Description Generator

Morpher AI

276.7K

透過我們的即時市場分析，獲得關於加密貨幣、股票、商品、外匯等的瞬時洞察。保持資訊靈通，在當今快速變化的金融環境中做出更明智的投資決策。

交易平台 AI Trading Bot Assistant

AI Virtual Staging

11.6K

幾秒鐘內為房地產圖像進行佈置：輕鬆轉變您的物業清單透過快速而專業的圖像佈置，提升您的房地產清單的視覺吸引力。在一個重視第一印象的市場中，我們的創新解決方案能夠在短短幾秒鐘內創造出驚人的視覺效果，讓您的物業在潛在買家中脫穎而出。無論您是房地產經紀人還是房主，都可以探索迅速的佈置方式如何提升您的行銷策略，並為您的清單吸引更多注意。

人工智慧 Other

Find AI tools in YBX