Anthropic 推动打击人工智能偏见与歧视的创新研究计划

随着人工智能(AI)日益融入我们的日常生活,像Anthropic这样的初创公司正专注于在推出新AI系统之前,减轻潜在的偏见和歧视等危害。

在一项关键的新研究中,Anthropic的研究人员发布了一篇题为《评估和减轻语言模型决策中的歧视》的论文,呈现了他们在AI偏见方面的发现。这项研究不仅揭示了AI决策过程中的固有偏见,还提出了一种全面的策略,旨在通过一种新颖的歧视评估方法,开发更公平的AI应用。

这项研究的时机恰到好处,正值AI行业在迅速技术进步所带来的伦理影响中,尤其是近期围绕OpenAI首席执行官山姆·奥特曼领导的动荡中,寻求方向。

AI歧视的主动评估

这篇发表在arXiv上的研究论文 outlines了一种主动框架,用于评估大语言模型(LLM)在财务和住房等高风险情境中的歧视影响。这些领域因AI技术的发展而日益受到关注。

“虽然我们不支持在高风险自动决策中使用语言模型,但预见早期风险至关重要,”首席作者兼研究科学家亚历克斯·汤金(Alex Tamkin)表示。“我们的工作使开发者和政策制定者能够预防这些问题。”

汤金指出,现有方法的局限性,强调需要更广泛的歧视评估技术。“以往研究深度关注有限应用,但语言模型具有多功能性,可以广泛应用于多个领域。我们的目标是创建一种可扩展的方法,适用于更广泛的使用案例。”

记录LLM中的歧视模式

为了分析歧视,Anthropic利用其Claude 2.0语言模型生成了一组多样的70个假设决策场景。这些场景涉及贷款审批和医疗治疗获取等关键决策,系统地变化了年龄、性别和种族等人口因素。

研究揭示了Claude 2.0模型中存在的正面和负面歧视模式。值得注意的是,该模型对女性和非白人群体表现出正面歧视,但对60岁以上的个体则存在偏见。

减少歧视的缓解策略

研究作者呼吁开发者和政策制定者积极应对这些问题。“随着语言模型能力的扩展,我们的研究为利益相关者提供了预见和测量歧视的工具,”他们表示。

建议的缓解策略包括整合强调歧视非法性的声明,并要求模型明确其推理。这些干预措施显著减少了观察到的歧视。

推进AI伦理

这项研究与Anthropic早期关于“宪法AI”的工作相辅相成,后者为模型建立了指导价值,强调对人类的帮助、安全性和透明度。Anthropic联合创始人贾里德·卡普兰(Jared Kaplan)强调,分享这些原则对于促进AI社区内的透明度和对话非常重要。

当前研究还与Anthropic在最小化AI灾难性风险方面的承诺相联系。联合创始人萨姆·麦肯德里什(Sam McCandlish)强调,在AI开发中确保独立监督的挑战,以及安全性测试的复杂性。

透明度和社区参与

通过发布这篇论文及相关数据集和提示,Anthropic推动了透明度,并鼓励在优化AI伦理标准方面的合作。汤金表示:“我们的方法促进了对广泛的语言模型应用场景的预见和探索。”

对于企业决策者而言,这项研究提供了评估AI部署的重要框架,确保遵循伦理标准。随着企业AI环境的发展,面临的挑战依然是:开发既高效又公平的技术。

更新(太平洋时间下午4:46):本文已更新,包含来自Anthropic研究科学家亚历克斯·汤金的独家见解。

Most people like

Find AI tools in YBX