Google DeepMind 推出「Gecko」：全面評估 AI 圖像生成器的新基準

Home AI新聞 Google DeepMind 推出「Gecko」：全面評估 AI 圖像生成器的新基準

最近你可能見過一些驚艷的 AI 生成圖片，比如宇航員騎馬或是酪梨坐在心理治療師的椅子上。這些引人注目的視覺作品來源於將文字提示轉換為圖片的 AI 模型。然而，這些系統是否真的如令人印象深刻的例子所示，能夠理解我們的請求？

谷歌 DeepMind 的一項最新研究揭示了目前文本到圖像 AI 模型評估方法的隱藏局限性。他們在預印本伺服器 arXiv 上發表的研究介紹了一種新的方法，稱為「Gecko」，旨在為這項不斷演變的技術提供更全面且可靠的基準。

根據 DeepMind 團隊在論文《用 Gecko 重訪文本到圖像評估：對度量、提示及人類評分的探討》中的說明，「儘管文本到圖像生成模型已變得無處不在，但它們未必能生成與給定提示相符的圖像。」他們強調，目前用於評估 DALL-E、Midjourney 和 Stable Diffusion 等模型的資料集和自動度量，往往無法捕捉到全貌。有限的人類評估和自動化指標可能會忽視關鍵細節，並導致與人類判斷之間的分歧。

Introducing Gecko: 新的文本到圖像模型基準

為了解決這些問題，研究人員開發了 Gecko——一個顯著提高文本到圖像模型評估標準的基準套件。Gecko 以 2,000 項多樣化的文本提示挑戰模型，探討不同的技能和複雜程度。通過將提示細分為特定的子技能，Gecko 有助於揭示模型的具體弱點。

「這個基於技能的基準將提示分為子技能，讓實踐者能識別哪些技能具有挑戰性及其複雜程度。」共同首席作者 Olivia Wiles 解釋道。

Gecko 框架通過整合（a）全面的技能基準數據集，（b）各種模板的廣泛人類標註，（c）改進的自動評估指標，以及（d）模型性能在多種標準上的洞察，提升了文本到圖像 AI 的評估。這項研究旨在促進對流行 AI 系統的更準確和穩健的基準評估。

更準確的 AI 能力圖像

研究人員還收集了超過 100,000 條針對多個主要模型生成的圖片的人工評分，對應 Gecko 提示。這大量的反饋使得基準能夠識別性能差距究竟源自模型的真實限制、模糊的提示，還是不一致的評估方法。

「我們收集了針對四個模板和四個文本到圖像模型的超過 100,000 條標註。」研究顯示。「這使我們能夠區分提示中的模糊性和與度量及模型質量相關的差異。」

Gecko 還具備基於問答的增強自動評估指標，與人類判斷的吻合度高於現有指標。在使用新基準評估先進的模型時，這一結合揭示了它們在優勢和劣勢上的未曾察覺的差異。

「我們引入了一種新的基於 QA 的自動評估指標，與人類評分的相關性高於現有指標。」論文指出，DeepMind 的 Muse 模型在 Gecko 測試中表現出色。

研究人員旨在強調在文本到圖像 AI 的實際應用前，採用多樣的基準和評估方法以充分了解其功能的必要性。他們計劃公開 Gecko 的代碼和數據，促進該領域的進一步發展。

「我們的工作顯示，數據集和指標的選擇對感知性能有著重大影響。」Wiles 總結道。「我們希望 Gecko 能夠促進未來更準確的基準和模型能力的診斷。」

因此，儘管那幅引人注目的 AI 生成圖片初看讓人驚艷，但徹底的測試對於區分真正的質量和純粹的幻象至關重要。Gecko 提供了一條實現這一清晰度的道路。

Fortanix 推出關鍵洞察：企業管理加密安全風險的解決方案

利用大型語言模型超越競爭對手：企業領導者的戰略指南

Most people like

Hubtype

23.4K

透過對話應用程式解鎖下一代客戶互動

客戶互動 AI Customer Service Assistant

Talkie

6.1M

Talkie 是一個創新的平台，讓使用者有能力改變他們的線上形象，並與多樣化的個體和經歷連結。無論您是想探索新的身份還是參與各式各樣的虛擬互動，Talkie 都提供了一個獨特的空間，讓您在數位領域中遇見任何人和事物。

通信 Other

Penseum - Your AI-Powered Study Partner

95.8K

Penseum是一個先進的人工智慧驅動學習平台，提供量身訂做的學習指南和全面的支持，提升您的學習體驗。

人工智慧驅動 AI Education Assistant

Leonardo AI

15.9M

透過利用人工智慧圖像與視頻生成的力量，釋放您創意工作的潛力。這項創新技術使藝術家、行銷專業人士和內容創作者能夠輕鬆製作驚豔的視覺效果和動態影片。探索人工智慧如何提升您的專案，增強您的敘事，並前所未有地吸引您的觀眾。

AI 影像生成器 AI Art Generator

Find AI tools in YBX