开放AI通过游戏提升人工智能模型的自我解释能力

在 Reddit 上出现的一个引人入胜且实用的俚语是“ELI5”,即“像我5岁一样解释”。这个术语鼓励专家将复杂的概念简化,就像向五岁小孩解释一样,使得包括没有正规教育背景的人在内的所有人都能更容易地理解深奥的观点。这种简单明了的方式也有助于 AI 模型,特别是在解决“可读性”问题时,即理解 AI 系统如何得出结论的过程。

今天,OpenAI 的研究人员发布了题为《Prover-Verifier Games Improve Legibility of LLM Outputs》的重要研究论文,该论文已在公司网站和 arXiv.org 上公开。他们的研究探讨了一种新算法,使大型语言模型(LLMs),如 GPT-4,能够更加清晰地表达其推理过程。

在 AI 系统的信任建立方面至关重要,尤其是在医疗、法律、军事和关键基础设施等敏感领域,这些领域中的不准确性可能导致严重后果。即便是非这些行业的企业,出于对错误输出的担忧,也可能犹豫不决地采用 AI。OpenAI 的研究旨在提供一种框架,使 AI 模型能够明确解释其决策过程,从而增强用户的信任。

OpenAI 研究员 Jan Hendrik Kirchner 表示:“这是我们刚刚完成的新研究,我们渴望与社区分享这些见解,以提高对可读性问题的认识并促进解决方案的合作。”

理解 Prover-Verifier 游戏

OpenAI 开发的算法建立在“Prover-Verifier 游戏”基础上,该概念由多伦多大学和向量人工智能研究所的研究人员于2021年首次提出。这个游戏涉及两个 AI 模型:一个更先进的“证明者”和一个技术较简单的“验证者”。证明者的目标是说服验证者其答案是正确的,而验证者则努力找出准确的回答。

其目标是促使 AI 模型“展示他们的工作”,并向人类用户解释其推理过程,从而促进可验证的问题解决方法。

OpenAI 研究员 Yining Chen 评论道:“随着大型语言模型在复杂和关键领域的日益部署,确保其输出可被信任至关重要。Prover-Verifier 游戏方法增强了清晰性和可验证性,这是信任的关键组成部分。”

实施 Prover-Verifier 游戏

OpenAI 使用两种经过自定义微调的 GPT-4 模型进行了一系列的回合,这些回合中它们解决了小学数学问题。他们的方法的重要途径是根据“提供帮助”(旨在提供正确答案)与“狡猾”(试图误导验证者)两种行为在证明者模型之间交替进行。验证者模型在不知情的情况下,仅基于其训练评估答案。

每个游戏回合后,两个模型会根据之前的表现进行再训练,从而提高评估正确性和以易于理解的方式进行解释的能力。研究人员还聘请了人类评估者来评价证明者模型答案的可读性。

经过多轮实验,研究人员发现验证者模型在抵抗狡猾证明者的说服技巧方面有所提升,而证明者模型在解释其推理方面变得更加有效。

论文指出:“对较小的验证者来说,更难检测的狡猾解决方案对人类也是更具挑战性的,而更易理解的有帮助的解决方案在小型验证者中同样易于理解。”

这些实验所产生的算法优化了 LLM 在正确性和清晰性方面的表现,OpenAI 认为这将有助于开发出不仅产生正确输出,还能保持透明的 AI 系统,从而增强现实应用中的安全性和信任感。

正如 Chen 指出的方法,它有潜力将更先进的 AI 系统与人类评估者对齐,这是模型接近或超越人类智能的关键一步。Kirchner 补充道:“在那种情况下,人类可能会越来越难以可靠地判断 AI 生成内容的准确性。”

Most people like

Find AI tools in YBX