你最近可能看到一些令人惊叹的AI生成图像,比如宇航员骑马或鳄梨坐在心理咨询师的椅子上。这些引人注目的视觉效果源于能够将文本提示转化为图像的AI模型。但这些系统真的能如它们显示的那样理解我们的请求吗?
谷歌DeepMind最近进行的一项研究揭示了当前文本到图像AI模型评估方法中的隐含局限性。他们在预印本服务器arXiv上发布的研究,介绍了一种新的方法,名为“Gecko”,旨在为这一不断发展的技术提供更全面和可靠的基准评价。
DeepMind团队在其论文《重新审视文本到图像的评估——Gecko简介》中指出:“尽管文本到图像生成模型已经广泛使用,但它们生成的图像不一定与给定提示一致。”他们强调,现有的数据集和自动评估指标往往无法全面反映这些模型的表现。有限的人类评价和自动指标可能忽视关键细微差别,从而导致与人类判断的不一致。
Gecko:文本到图像模型的新基准
为了解决这些问题,研究人员开发了Gecko——一个显著提高文本到图像模型评估标准的基准套件。Gecko通过2000个多样的文本提示,考验模型的多种技能和复杂性水平。通过将提示细分为特定子技能,Gecko帮助揭示模型的具体弱点。
“这个基于技能的基准将提示分类为子技能,帮助实践者识别哪些技能具有挑战性,以及在哪个复杂性水平上,”共同首席作者Olivia Wiles解释道。
Gecko框架通过整合(a)全面的基于技能的基准数据集,(b)多种模板下的大量人类注释,(c)改进的自动评估指标,以及(d)对模型在多项标准上表现的深入见解,提升了文本到图像AI的评估。这项研究旨在为流行的AI系统提供更准确和稳健的基准评测。
更准确地揭示AI能力
研究人员还针对多个领先模型在Gecko提示下生成的图像收集了超过10万条人类评分。这一大量反馈使基准能够识别性能差距是源于真正的模型限制、模糊的提示,还是不一致的评估方法。
“我们在四种模板和四个文本到图像模型上收集了超过10万条注释,”研究报告指出。“这使我们能够区分提示的模糊性与与指标和模型质量相关的差异。”
Gecko还采用了一种基于问答的新型自动评估指标,与人类判断的相关性更强。当使用新的基准评估当前先进模型时,这种组合揭示了它们在优缺点上的以前未被发现的差异。
“我们引入了一种新的基于QA的自动评估指标,与不同人类模板下的人类评分相关性更高;在TIFA160上也是如此,”论文中提到。值得注意的是,DeepMind的Muse模型在Gecko评估中表现突出。
研究人员旨在强调使用多样化的基准和评估方法的重要性,以便真正理解文本到图像AI能做什么以及不能做什么。他们计划公开Gecko的代码和数据,以促进这一领域的进一步发展。
“我们的工作显示,数据集和指标的选择对感知性能具有重大影响,”Wiles总结说。“我们希望Gecko能够在未来实现更准确的基准评测和模型能力诊断。”
因此,尽管那幅引人入胜的AI生成图像初看令人印象深刻,但经过彻底测试,才能真正区分出真质量与幻象。Gecko为实现这一清晰度提供了路线图。