理解可解释性:利用临床试验原则提升人工智能安全测试

人工智能在以消费者为中心的企业中的兴起伴随着对其长期治理的日益担忧。拜登政府最近发布的行政命令强调了有效AI监管的紧迫性,该命令要求为先进AI系统的开发和部署制定新协议。

如今,AI提供商和监管机构将可解释性视为AI治理的核心。这一关注点使受到AI系统影响的个人能够理解并质疑这些技术产生的结果,包括潜在的偏见。在解释较简单的算法(如汽车贷款审批)时可能比较直接,但新兴的AI技术涉及复杂的算法,往往难以解读,却能带来显著优势。例如,OpenAI的GPT-4凭借其庞大的数据集和数十亿个参数,能够生成类似人类的对话,正在改变多个行业。同样,Google DeepMind的癌症筛查模型利用深度学习提供精准的疾病检测,挽救生命。

这些复杂模型可能掩盖决策过程,提出了一个重要问题:我们是否应该放弃这些部分可解释但又有益的技术,以避免不确定性?即便是旨在监管AI的美国立法者也意识到了可解释性的复杂性,强调应以结果为导向来制定AI治理策略,而不仅仅关注可解释性。

对于新兴技术的不确定性,许多领域都已展开探索。医学界早已认识到,在开发新疗法时,识别潜在危害至关重要。这种认识促成了随机对照试验(RCT)的出现,以评估风险。

在RCT中,参与者被分为治疗组和对照组,治疗组接受医学干预,而对照组则不接受。通过比较这两个可比队列的结果,研究人员可以确定因果关系并评估治疗效果。

历史上,医学研究人员采用稳定的测试设计来评估长期安全性和有效性。然而,在AI领域,系统会不断学习,新益处和风险可能在每次重新训练和部署中出现,因此传统的RCT可能无法充分适应AI风险评估。其他框架,如A/B测试,可能为AI系统的长期结果提供有价值的洞察。

过去15年来,A/B测试已广泛应用于产品开发。这种方法通过对不同用户组施加不同处理,评估各种功能的影响,例如网页上哪些按钮获得的点击最多。前Bing实验负责人Ronny Kohavi开创了在线持续实验的方法,随机将用户分配到网站的当前版本或新版本。这样的严格监测使公司能够在了解这些变化对关键指标影响的同时,迭代改进产品。

许多科技公司,包括Bing、Uber和Airbnb,都建立了持续测试技术变更的系统。这一框架使公司不仅能够评估点击率和收入等商业指标,还能够识别潜在的危害,如歧视。

有效的AI安全测量可能如下:一家大型银行可能担心个人贷款的新定价算法不公平地使女性处于不利地位。尽管模型并未明确使用性别,但银行怀疑代理变量可能会无意中影响结果。为了验证这一点,银行可以创建一个实验,让治疗组使用新算法,而对照组则采用传统模型的决策。

通过确保性别等人口统计数据在各组中均匀分配,银行可以测量任何不均衡影响,评估算法的公平性。此外,AI的使用可以通过逐步推出新功能来控制,从而实现风险管理。

此外,像Microsoft这样的组织采用“红队测试”,让员工对AI系统进行对抗性挑战,以识别其重大风险,以便在更广泛部署之前进行调整。

最终,测量AI安全性促进了责任归属。与主观的可解释性不同,评估AI系统在不同人群中产生的输出提供了一个可量化的框架,以评估潜在危害。这一过程建立了责任,使AI提供商能够确保他们的系统有效且合乎伦理地运作。

在可解释性仍然是AI提供商和监管者关注的焦点时,借鉴医疗行业的方法可以帮助实现安全有效的AI系统的共同目标,确保其按照预期工作。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles