隨著人工智慧(AI)逐漸融入我們的日常生活,像Anthropic這樣的初創公司專注於在推出新AI系統之前減輕潛在的危害,例如偏見和歧視。
在一項關鍵的新研究中,Anthropic的研究人員發表了題為“評估和減輕語言模型決策中的歧視”的論文,介紹了他們對AI偏見的發現。這項研究不僅識別了AI決策中的固有偏見,還提出了一種通過創新的歧視評估方法來開發更公平AI應用的全面策略。
此項研究的時機極其重要,因為AI行業在迅速技術進展的背景下,須面對倫理含義,尤其是在OpenAI最近因首席執行官Sam Altman的領導問題引發的動盪之後。
在AI中的歧視主動評估
這篇發表在arXiv的研究論文提出了一個主動框架,以評估大型語言模型(LLMs)在金融和住房等高風險情境下的歧視性影響——這一領域隨著AI技術的發展而愈加受到關注。
“雖然我們不支援將語言模型用於高風險的自動決策,但早期風險預測是必要的,”首席作者和研究科學家Alex Tamkin表示。“我們的研究使開發者和政策制定者能夠預見這些問題。”
Tamkin指出現有方法的局限性,強調需要更廣泛的歧視評估技術。“以往的研究往往深入探討有限的應用範疇,”他解釋道。“然而,語言模型用途廣泛,可用於許多領域。我們的目標是創造一種可擴展的方法,適用於更廣泛的使用案例。”
記錄LLMs中的歧視模式
為了分析歧視,Anthropic使用其Claude 2.0語言模型生成了70個多樣化的假設決策場景,包括關鍵決策如貸款批准和醫療獲取,同時有系統地變化年齡、性別和種族等人口因素。
研究顯示Claude 2.0模型存在正向和負向的歧視模式。值得注意的是,該模型對女性和非白人群體表現出正向歧視,但對60歲以上的人則顯示出偏見。
減少歧視的緩解策略
研究的作者呼籲開發者和政策制定者主動解決這些問題。“隨著語言模型能力的擴展,我們的研究使相關方能夠預見和衡量歧視,”他們表示。
提出的減緩策略包括融入強調歧視非法性聲明的內容,以及要求模型具備解釋其推理的能力。這些措施顯著降低了測量到的歧視。
推動AI倫理
這項研究與Anthropic早期針對憲法AI的工作相呼應,該工作為AI模型建立了指導原則,強調有益性、安全性和透明度。Anthropic的聯合創始人Jared Kaplan強調分享這些原則對促進AI界的透明度和對話至關重要。
目前的研究也與Anthropic致力於將AI中的災難性風險降至最低的承諾相連結。聯合創始人Sam McCandlish指出,在確保獨立監督的挑戰中,還需應對AI開發中安全測試的複雜性。
透明度和社區參與
通過發佈這篇論文及相關數據集和提示,Anthropic推動透明度並鼓勵合作,以完善AI的倫理標準。Tamkin指出:“我們的方法促進了對各種社會領域中語言模型應用的預測與探索。”
對於企業的決策者而言,這項研究提供了一個評估AI部署的關鍵框架,確保遵循倫理標準。隨著企業AI領域的演變,挑戰仍然存在:發展能夠在效率與公平之間達成平衡的技術。