Google即將推出其文本轉圖像模型Imagen 3的重大更新,該模型承諾提供更詳細的畫面、更佳的自然語言理解能力以及優化的文本渲染功能。目前,Imagen 3在ImageFX上對部分創作者開放私密預覽,開發者可以加入候補名單以獲取訪問權限。此外,Imagen 3預計將整合進Vertex AI。
谷歌DeepMind的高級研究總監道格拉斯·艾克在公司I/O開發者大會上表示:「這是我們迄今為止最先進的圖像生成模型。Imagen 3提供了更高的真實感、更豐富的細節,並顯著減少了視覺瑕疵和扭曲。它以對話方式理解提示——您提供的創意和細節越多,輸出效果就越好。Imagen 3在長提示中加入微妙元素的能力十分突出,並在文本渲染方面代表了我們迄今為止的最佳努力,這是圖像生成模型面臨的共同挑戰。」
這一消息發布距離Google在Vertex AI上廣泛推出Imagen 2僅六個月,此前在四月發布了文本轉實時功能。隨著OpenAI的DALL-E、Midjourney、Adobe的Firefly、Meta的AI和微軟的Designer等AI圖像生成工具的激烈競爭,Google必須保持領先地位。
然而,谷歌在這一領域的旅程並非一帆風順。今年早些時候,該公司因其AI生成的圖片遭到攻擊,批評者指責這些圖片「過於政治正確」,包括描繪美國開國元勳與一名黑人男子以及第二次世界大戰德國士兵旁邊有一名黑人男子和一位亞洲女性的形象。谷歌承認了這一失誤,首席執行官桑達爾·皮查伊在接受彭博社訪問時重申了道歉。
Imagen 3的發布是Google I/O上幾個激動人心的更新之一,還包括新視頻生成模型Veo的推出。