Anthropic 擴大漏洞獎勵計劃以提升 AI 安全性
亞馬遜支持的 AI 初創公司 Anthropic 週四宣布擴大其漏洞獎勵計劃,將對發現其 AI 系統關鍵漏洞的貢獻者提供高達 15,000 美元的獎金。這一舉措標誌著 AI 公司在進行先進語言模型的安全測試時,嘗試群眾外包的重要努力。
該計劃的重點是“通用越獄”攻擊——這些方法能夠持續繞過 AI 安全措施,特別是在化學、生物、放射、核(CBRN)威脅及網絡安全等高風險領域。Anthropic 邀請道德駭客在其下一代安全緩解系統公開部署前進行檢查,旨在預防可能導致其 AI 模型被濫用的潛在漏洞。
隨著英國競爭與市場管理局對亞馬遜 40 億美元投資 Anthropic 展開調查,指出可能存在的競爭擔憂,這一舉措正值 AI 行業的重要時刻。在日益增加的監管審查中,Anthropic 對安全的重視或將提升其聲譽,並使其與競爭對手區分開來。
Anthropic 的做法與其他主要 AI 企業有所不同。儘管 OpenAI 和 Google 都有漏洞獎勵計劃,但這些計劃通常針對傳統軟件漏洞,而非專門應對 AI 威脅。另一方面,Meta 的閉門態度在 AI 安全研究方面受到批評。通過明確專注於 AI 安全問題並邀請外部檢視,Anthropic 樹立了行業透明度的新標準。
道德駭客在 AI 中的演變角色
儘管漏洞獎勵計劃的前景可期,但其在應對全面 AI 安全挑戰方面的有效性仍然存在爭議。雖然發現並修補具體漏洞至關重要,但這並不解決 AI 對齊和長期安全的深層次問題。全面的策略——包括廣泛測試、提高可解釋性以及潛在的新治理框架——對於確保 AI 系統隨著技術進步與人類價值觀保持一致至關重要。
這一舉措還凸顯了私營公司在建立 AI 安全標準方面日益增長的角色。隨著監管框架未能跟上快速的技術發展,科技公司正在努力界定最佳實踐。這一趨勢引發了關於企業創新與公共監管在塑造 AI 治理未來方面的平衡的重要問題。
AI 安全的新前沿
擴大後的漏洞獎勵計劃將作為邀請制計劃啟動,並與連接組織與網絡安全研究人員的 HackerOne 平台合作。Anthropic 計劃未來擴大該計劃,促進全行業在 AI 安全方面的合作。
隨著 AI 系統成為關鍵基礎設施的核心,確保其安全性和可靠性比以往任何時候都更加重要。Anthropic 的這一大膽舉措標誌著該領域的一次重大進展,同時突顯了 AI 行業在管理日益強大的技術方面所面臨的複雜挑戰。該計劃的結果可能為未來數年 AI 公司在安全和保護方面的應對措施樹立重要先例。