谷歌DeepMind推出“Gecko”：全面评估人工智能图像生成器的新基准

Home AI News CN 谷歌DeepMind推出“Gecko”：全面评估人工智能图像生成器的新基准

你最近可能看到一些令人惊叹的AI生成图像，比如宇航员骑马或鳄梨坐在心理咨询师的椅子上。这些引人注目的视觉效果源于能够将文本提示转化为图像的AI模型。但这些系统真的能如它们显示的那样理解我们的请求吗？

谷歌DeepMind最近进行的一项研究揭示了当前文本到图像AI模型评估方法中的隐含局限性。他们在预印本服务器arXiv上发布的研究，介绍了一种新的方法，名为“Gecko”，旨在为这一不断发展的技术提供更全面和可靠的基准评价。

DeepMind团队在其论文《重新审视文本到图像的评估——Gecko简介》中指出：“尽管文本到图像生成模型已经广泛使用，但它们生成的图像不一定与给定提示一致。”他们强调，现有的数据集和自动评估指标往往无法全面反映这些模型的表现。有限的人类评价和自动指标可能忽视关键细微差别，从而导致与人类判断的不一致。

Gecko：文本到图像模型的新基准

为了解决这些问题，研究人员开发了Gecko——一个显著提高文本到图像模型评估标准的基准套件。Gecko通过2000个多样的文本提示，考验模型的多种技能和复杂性水平。通过将提示细分为特定子技能，Gecko帮助揭示模型的具体弱点。

“这个基于技能的基准将提示分类为子技能，帮助实践者识别哪些技能具有挑战性，以及在哪个复杂性水平上，”共同首席作者Olivia Wiles解释道。

Gecko框架通过整合（a）全面的基于技能的基准数据集，（b）多种模板下的大量人类注释，（c）改进的自动评估指标，以及（d）对模型在多项标准上表现的深入见解，提升了文本到图像AI的评估。这项研究旨在为流行的AI系统提供更准确和稳健的基准评测。

更准确地揭示AI能力

研究人员还针对多个领先模型在Gecko提示下生成的图像收集了超过10万条人类评分。这一大量反馈使基准能够识别性能差距是源于真正的模型限制、模糊的提示，还是不一致的评估方法。

“我们在四种模板和四个文本到图像模型上收集了超过10万条注释，”研究报告指出。“这使我们能够区分提示的模糊性与与指标和模型质量相关的差异。”

Gecko还采用了一种基于问答的新型自动评估指标，与人类判断的相关性更强。当使用新的基准评估当前先进模型时，这种组合揭示了它们在优缺点上的以前未被发现的差异。

“我们引入了一种新的基于QA的自动评估指标，与不同人类模板下的人类评分相关性更高；在TIFA160上也是如此，”论文中提到。值得注意的是，DeepMind的Muse模型在Gecko评估中表现突出。

研究人员旨在强调使用多样化的基准和评估方法的重要性，以便真正理解文本到图像AI能做什么以及不能做什么。他们计划公开Gecko的代码和数据，以促进这一领域的进一步发展。

“我们的工作显示，数据集和指标的选择对感知性能具有重大影响，”Wiles总结说。“我们希望Gecko能够在未来实现更准确的基准评测和模型能力诊断。”

因此，尽管那幅引人入胜的AI生成图像初看令人印象深刻，但经过彻底测试，才能真正区分出真质量与幻象。Gecko为实现这一清晰度提供了路线图。