Google DeepMind 推出「Gecko」:全面評估 AI 圖像生成器的新基準

最近你可能見過一些驚艷的 AI 生成圖片,比如宇航員騎馬或是酪梨坐在心理治療師的椅子上。這些引人注目的視覺作品來源於將文字提示轉換為圖片的 AI 模型。然而,這些系統是否真的如令人印象深刻的例子所示,能夠理解我們的請求?

谷歌 DeepMind 的一項最新研究揭示了目前文本到圖像 AI 模型評估方法的隱藏局限性。他們在預印本伺服器 arXiv 上發表的研究介紹了一種新的方法,稱為「Gecko」,旨在為這項不斷演變的技術提供更全面且可靠的基準。

根據 DeepMind 團隊在論文《用 Gecko 重訪文本到圖像評估:對度量、提示及人類評分的探討》中的說明,「儘管文本到圖像生成模型已變得無處不在,但它們未必能生成與給定提示相符的圖像。」他們強調,目前用於評估 DALL-E、Midjourney 和 Stable Diffusion 等模型的資料集和自動度量,往往無法捕捉到全貌。有限的人類評估和自動化指標可能會忽視關鍵細節,並導致與人類判斷之間的分歧。

Introducing Gecko: 新的文本到圖像模型基準

為了解決這些問題,研究人員開發了 Gecko——一個顯著提高文本到圖像模型評估標準的基準套件。Gecko 以 2,000 項多樣化的文本提示挑戰模型,探討不同的技能和複雜程度。通過將提示細分為特定的子技能,Gecko 有助於揭示模型的具體弱點。

「這個基於技能的基準將提示分為子技能,讓實踐者能識別哪些技能具有挑戰性及其複雜程度。」共同首席作者 Olivia Wiles 解釋道。

Gecko 框架通過整合(a)全面的技能基準數據集,(b)各種模板的廣泛人類標註,(c)改進的自動評估指標,以及(d)模型性能在多種標準上的洞察,提升了文本到圖像 AI 的評估。這項研究旨在促進對流行 AI 系統的更準確和穩健的基準評估。

更準確的 AI 能力圖像

研究人員還收集了超過 100,000 條針對多個主要模型生成的圖片的人工評分,對應 Gecko 提示。這大量的反饋使得基準能夠識別性能差距究竟源自模型的真實限制、模糊的提示,還是不一致的評估方法。

「我們收集了針對四個模板和四個文本到圖像模型的超過 100,000 條標註。」研究顯示。「這使我們能夠區分提示中的模糊性和與度量及模型質量相關的差異。」

Gecko 還具備基於問答的增強自動評估指標,與人類判斷的吻合度高於現有指標。在使用新基準評估先進的模型時,這一結合揭示了它們在優勢和劣勢上的未曾察覺的差異。

「我們引入了一種新的基於 QA 的自動評估指標,與人類評分的相關性高於現有指標。」論文指出,DeepMind 的 Muse 模型在 Gecko 測試中表現出色。

研究人員旨在強調在文本到圖像 AI 的實際應用前,採用多樣的基準和評估方法以充分了解其功能的必要性。他們計劃公開 Gecko 的代碼和數據,促進該領域的進一步發展。

「我們的工作顯示,數據集和指標的選擇對感知性能有著重大影響。」Wiles 總結道。「我們希望 Gecko 能夠促進未來更準確的基準和模型能力的診斷。」

因此,儘管那幅引人注目的 AI 生成圖片初看讓人驚艷,但徹底的測試對於區分真正的質量和純粹的幻象至關重要。Gecko 提供了一條實現這一清晰度的道路。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles