谷歌近期公布了其影像生成模型的重要更新,包括Imagen 2,現新增的文本轉直播功能可使用戶將文本提示轉換為動畫圖像。該模型同時引入了圖片編輯功能,如修補、擴展和數位水印,現已開放給廣大用戶使用。
在谷歌雲端峰會上宣布的Imagen 2的文本轉直播功能,最初生成24幀每秒的動畫GIF,解析度為360x640像素,持續四秒。谷歌表示將會持續優化此功能。
谷歌雲端首席執行官Thomas Kurian在記者簡報中指出:“用戶現在不僅能看到靜態的物體圖片,如汽車,還能欣賞到移動車輛的短動畫。媒體和廣告行業特別在採用這項技術來提升用戶互動。”
Imagen 2被設計用來創造帶有不同相機角度和動作的圖像,同時確保整個動畫序列的一致性。它還結合了安全過濾器和數位水印,回應了與生成式AI相關的關鍵問題。
新公開的圖片編輯功能使用戶能夠從照片中添加或移除元素,類似於Adobe Photoshop的生成填充或內容感知工具。用戶亦可擴展圖像邊界,以獲得更寬廣的視野。
這些更新是谷歌針對其全面管理的雲端AI平台Vertex AI的公告之一。Imagen 2於2023年推出,為谷歌DeepMind的產品,旨在從自然語言提示生成逼真高解析度的圖像。它與OpenAI的DALL-E、Midjourney和Adobe Firefly等其他領先模型競爭,專門幫助企業生產符合品牌指南和治理標準的圖像。