Google的先進文本轉圖像基礎模型Imagen 3即將在Vertex AI平台上推出。這款次世代的AI工具將為選定客戶提供預覽服務,讓開發者能更快速地生成圖像、改善提示理解,提供更具真實感的人物描繪,以及強化文本渲染能力,相較於之前的版本具有顯著提升。
Imagen 3最初在五月的Google I/O活動中介紹,並在ImageFX中以私人預覽的形式為部分創作者提供服務。Google的公告確認這款強大的AI模型將很快在Vertex AI上線。
Google DeepMind的高級研究董事Douglas Eck強調了其能力,他表示:“這是我們迄今為止最強大的圖像生成模型。Imagen 3更加真實、生動細緻,並且顯著減少了視覺瑕疪。它能夠自然且具創意地理解提示,詳細的指示能產生最佳效果。此外,它在從較長的提示中融入細微細節方面表現優異,並改善了文本渲染,解決了早期圖像生成模型中的一個持續挑戰。”
隨著轉移至Vertex AI,Imagen 3引入了多語言支持、強大的安全功能(包括Google DeepMind的SynthID數字水印技術)以及對多種長寬比的支持。
領先的庫存攝影公司Shutterstock已經整合了這一模型。Shutterstock數據服務副總裁Justin Hiza表示:“自從將Imagen納入我們的AI圖像生成器以來,用戶已創建了數百萬張圖像。我們對Imagen 3的改進感到振奮,它讓用戶能更快地實現創意而不損害質量。這一進步進一步鞏固了Shutterstock對道德採集AI圖像生成器的承諾,確保通過Google Cloud對生成性AI的賠償提供安全性和保護。”
儘管Google持續進化Imagen,但尚未透露Gemini AI何時會在面對有關不準確性的批評後恢復圖像生成。在最近的新聞簡報中,Google Cloud首席執行官Thomas Kurian澄清了兩種模型之間的區別:“Gemini是一個多模態模型,旨在處理多種類型的輸入,包括圖像、視頻和音頻,實現跨模態推理。相比之下,Imagen是一個擴散模型,專注於生成高保真的文本轉圖像輸出。它們各自有著不同的用途。”
關於Gemini圖像功能何時重新啟用的問題仍未有明確回應。