Meta創辦人兼執行長馬克·扎克伯格(Mark Zuckerberg)在週末以高昂的情緒結束了一週,在他的個人Instagram上分享了一段影片,展示自己在健身房進行腿部推舉的過程。這個社交網絡於2012年被Meta收購,成為了這一突破性公告的完美背景。
影片中,腿部推舉機變化為多種吸引眼球的版本:霓虹网络朋克風、古羅馬風格和金色火焰版。
推出Movie Gen
祖克伯格的健身常態同時也是Movie Gen的首次亮相,這是Meta創新的生成多模態AI模型套件,能夠根據文字提示創建影片和音頻。用戶可以通過簡單的文字指令,個性化自己的影片,增添特殊效果、道具及服裝,這在祖克伯格的貼文中得到了展示。這些先進的模型讓用戶可以修改視頻片段的具體元素,而非完全重新生成,這一特性使其不同於以往的AI模型。Meta最近的一份技術文件顯示,在一致性和動作自然度等屬性上,Movie Gen超越了Runway Gen 3、Luma Dream Machine、OpenAI Sora和Kling 1.5等競爭對手。
多元應用
Meta希望將Movie Gen定位為休閒用戶和專業內容創作者(包括好萊塢電影製作人)必備的工具。
Movie Gen的主要特點
1. Movie Gen Video:強大的300億參數模型,用於文字轉視頻生成。
2. Movie Gen Audio:130億參數模型,支持從視頻生成音頻。
3. 個性化Movie Gen Video:根據用戶提供的圖片生成定制視頻。
4. Movie Gen Edit:精確視頻編輯模型,允許局部修改和背景替換。
用戶可以生成長達16秒、每秒16幀的高清(HD)視頻,並配有同步的48kHz音頻。
先進的媒體能力
Movie Gen通過以下特點簡化創作過程:
- 高品質視頻製作:用戶只需輸入文字提示,即可創建高清視頻,支持1080p分辨率並保持相機運動和物體互動等複雜細節。
- 個性化內容創作:用戶上傳個人圖片後,能在AI生成的視頻中擔任主角,並在各種提示調整中保留其身份。
- 高效視頻編輯:用戶可以使用簡單的文字命令在視頻中進行具體的更改,如調整顏色或物體。
- 同步音頻生成:Movie Gen套件包含先進的音頻模型,能創建與視覺效果相符的音效和背景音樂。
數據驅動的創新
Movie Gen基於Meta從互聯網收集的大量數據,利用1億部視頻和10億張圖片進行訓練。然而,Meta在其數據來源的合法性方面面臨質疑,這引發了有關AI開發中著作權和用戶權利的持續討論。
改進AI訓練方法
Meta的做法結合了傳統的擴散模型架構和名為“Flow Matching”的新技術,旨在提高訓練效率和輸出質量。其主要優勢包括:
- 零終端信號噪聲比(SNR):Flow Matching自然維持SNR而無需額外調整,提高視頻輸出的一致性。
- 訓練和推斷效率:該方法提供更大的靈活性,響應不同的噪聲時間表,從而提升各模型尺寸的性能和與人類評價的一致性。
未來展望
計劃於2025年在Instagram上推出,Movie Gen旨在讓廣泛的用戶基礎都能輕鬆使用先進的視頻創作技術。隨著Meta持續優化該技術,與創作者和電影製作人的合作對於完善該套件的功能至關重要。
Meta展望Movie Gen將使高級視頻編輯工具民主化,補充專業藝術家的工作,並增強所有用戶的創作選擇。隨著技術的發展,潛在的應用可能包括個性化的動畫祝賀和用戶主導的短片。
Movie Gen的推出預示著內容創作將在Meta的平台上發生變革,Instagram用戶將是首批受益於這一突破性技術的人。隨著其不斷演進,Movie Gen可能成為專業及獨立創作者不可或缺的工具。