Anthropic推出1.5万美元黑客奖励,致力于提升AI安全性

Anthropic推出扩展的漏洞奖励计划以增强人工智能安全性

Anthropic,这家获得亚马逊支持的人工智能创业公司,在周四宣布了其扩展的漏洞奖励计划,提供高达15,000美元的奖励,用于发现其AI系统中的关键漏洞。这一举措体现了人工智能公司通过众包方式进行高级语言模型安全测试的重大努力。

该计划的重点是“通用越狱”攻击——这些方法可以持续绕过高风险领域(如化学、生物、放射性和核(CBRN)威胁以及网络安全)的AI安全措施。Anthropic邀请伦理黑客在其下一代安全缓解系统公开部署前进行审查,旨在预防可能导致其AI模型被滥用的安全漏洞。

这一举措恰逢人工智能行业的关键时刻,特别是英国竞争与市场管理局已对亚马逊40亿美元投资Anthropic展开调查,理由是可能存在竞争担忧。在监管审查日益增强的背景下,Anthropic对安全性的重视有助于提升其声誉,并使其与竞争对手区分开来。

Anthropic的做法与其他主要AI公司形成对比。虽然OpenAI和谷歌也有漏洞奖励计划,但这些计划大多侧重于传统软件漏洞,而非AI特有的威胁。相较之下,Meta因其在AI安全研究方面的封闭态度而受到批评。通过明确关注AI安全问题并邀请外部审查,Anthropic为行业设立了新的透明度标准。

伦理黑客在AI中的新角色

尽管漏洞奖励计划的前景令人期待,但其在解决AI安全挑战的全面有效性上仍存在争议。识别和修复具体漏洞固然关键,但可能无法解决AI对齐及长期安全的深层次问题。确保AI系统与人类价值观的对齐需要全面的策略,包括广泛的测试、提升可解释性,以及可能的新治理框架。

该计划还强调了私营公司在制定AI安全标准方面日益重要的角色。在监管框架跟不上快速技术发展的情况下,科技公司正在积极定义最佳实践。这一趋势引发了关于企业创新与公共监督之间平衡的重要问题,关系到未来AI治理的方向。

AI安全的新前沿

扩展的漏洞奖励计划将作为邀请制的举措,与网络安全研究平台HackerOne合作。Anthropic计划在未来扩展该计划,促进行业间对AI安全的合作。

随着AI系统在关键基础设施中发挥越来越重要的作用,确保其安全性和可靠性比以往任何时候都更为至关重要。Anthropic的大胆举措标志着该领域的重大进展,同时凸显了AI行业在管理日益强大的技术时面临的复杂挑战。该计划的结果可能为AI公司未来如何处理安全和保护设定重要的先例。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles