Google 的 Imagen 3：強化的文本轉圖像基礎模型現已在 Vertex AI 上線

Home AI新聞 Google 的 Imagen 3：強化的文本轉圖像基礎模型現已在 Vertex AI 上線

Google的先進文本轉圖像基礎模型Imagen 3即將在Vertex AI平台上推出。這款次世代的AI工具將為選定客戶提供預覽服務，讓開發者能更快速地生成圖像、改善提示理解，提供更具真實感的人物描繪，以及強化文本渲染能力，相較於之前的版本具有顯著提升。

Imagen 3最初在五月的Google I/O活動中介紹，並在ImageFX中以私人預覽的形式為部分創作者提供服務。Google的公告確認這款強大的AI模型將很快在Vertex AI上線。

Google DeepMind的高級研究董事Douglas Eck強調了其能力，他表示：“這是我們迄今為止最強大的圖像生成模型。Imagen 3更加真實、生動細緻，並且顯著減少了視覺瑕疪。它能夠自然且具創意地理解提示，詳細的指示能產生最佳效果。此外，它在從較長的提示中融入細微細節方面表現優異，並改善了文本渲染，解決了早期圖像生成模型中的一個持續挑戰。”

隨著轉移至Vertex AI，Imagen 3引入了多語言支持、強大的安全功能（包括Google DeepMind的SynthID數字水印技術）以及對多種長寬比的支持。

領先的庫存攝影公司Shutterstock已經整合了這一模型。Shutterstock數據服務副總裁Justin Hiza表示：“自從將Imagen納入我們的AI圖像生成器以來，用戶已創建了數百萬張圖像。我們對Imagen 3的改進感到振奮，它讓用戶能更快地實現創意而不損害質量。這一進步進一步鞏固了Shutterstock對道德採集AI圖像生成器的承諾，確保通過Google Cloud對生成性AI的賠償提供安全性和保護。”

儘管Google持續進化Imagen，但尚未透露Gemini AI何時會在面對有關不準確性的批評後恢復圖像生成。在最近的新聞簡報中，Google Cloud首席執行官Thomas Kurian澄清了兩種模型之間的區別：“Gemini是一個多模態模型，旨在處理多種類型的輸入，包括圖像、視頻和音頻，實現跨模態推理。相比之下，Imagen是一個擴散模型，專注於生成高保真的文本轉圖像輸出。它們各自有著不同的用途。”

關於Gemini圖像功能何時重新啟用的問題仍未有明確回應。

Google推出Gemini 1.5的Flash版和專業版，公眾訪問的Token上限為200萬。

Zip的AI採購平台實現44億美元的儲蓄，徹底改變企業支出策略