OpenAI 研究人員要求擁有「警告權」,以應對安全風險,並呼籲採取行動以防止「人類滅絕」的危機。

一組由11位研究人員組成的團體,包括現任及前OpenAI員工、一名Google DeepMind成員和一名前Anthropic研究員,發表了一封公開信,敦促AI公司採納四個旨在保護舉報者和批評者的原則,以應對AI安全問題。

該信件題為《警告的權利》,強調AI技術帶來的嚴重風險,並指出:“這些風險從延續現有不平等,到操控、錯誤信息,以及對自主AI系統的控制喪失,這可能導致人類滅絕。”

信件中提及的主要問題包括監管不足、以利潤為驅動的動機,以及在開發先進AI技術的組織內抑制異議聲音。

為了解決這些問題,簽署者提出了對AI公司的以下四項原則:

1. 不得強制執行限制批評性評論的協議或對舉報風險的個人進行報復。

2. 建立一個機密且可查證的流程,報告與風險相關的問題給公司的董事會、監管機構及獨立組織。

3. 培養一種透明文化,鼓勵員工公開討論潛在風險,同時保護商業機密。

4. 禁止對在其他報告方式失效後披露機密風險相關信息的員工進行報復。

該信件於《紐約時報》上發表,贏得了Yoshua Bengio、Geoffrey Hinton 和 Stuart Russell 等AI領袖的支持。知名簽署者包括前OpenAI員工Jacob Hilton、Daniel Kokotajlo、William Saunders 和 Daniel Ziegler,以及來自Google DeepMind的Ramana Kumar 及目前在DeepMind的Neel Nanda。

在文章發表後,Kokotajlo在X(前身為Twitter)上進一步闡述了他從OpenAI辭職的原因,表示他對公司在負責任AI發展方面的承諾失去了信心。他強調在推進AI技術方面需要更大的透明度和道德標準。

Kokotajlo透露,他放棄了獲得的股權,以便自由批評公司,對OpenAI在系統發展過程中未能優先考慮安全研究感到失望。他還報告在離職時被要求簽署一份禁止貶低協議,這在他看來是不道德的。

這些聲明隨著早前有關OpenAI做法的揭露而出現,包括洩露文件顯示對前員工的強制手段。然而,OpenAI表示不會強制執行在科技行業中普遍存在的保密協議。

公開信的發佈正值OpenAI面臨動盪時期,自2023年11月因董事會的通信問題而引發的CEO Sam Altman 銷除爭議開始。因投資者施壓,Altman迅速被重新任命,但一些董事會成員對問責制和透明度持繼續擔憂的態度,這些問題也受到包括Scarlett Johansson在內的公眾人物的關注,她批評公司在未經同意的情況下濫用她的聲音。

儘管面臨這些挑戰,該公司正試圖通過成立新的安全與保安委員會來應對安全問題,並在其最新的AI模型訓練時公佈。

完整的《警告權利》信件文本:

關於先進人工智慧的警告權利

我們是前沿AI公司的現任及前員工,深信AI技術能為人類帶來空前的益處。

然而,我們也意識到這些技術帶來的嚴重風險,包括加劇不平等現象、促進操控與錯誤信息的擴散,並可能導致對自主AI系統的控制喪失,造成災難性後果。

AI公司承認這些風險,各國政府和世界各地的專家也同樣如此。我們希望這些風險能夠在科學界、政策制定者和公眾的指導下得到緩解。然而,重大的金融激勵往往會妨礙有效的監管。

AI公司擁有關於其系統能力和風險的重要非公開信息,但對向政府或公民社會披露這些信息的責任較弱。因此,現任和前任員工在確保問責方面至關重要,但保密協議常常使我們沉默。傳統的舉報者保護措施也不夠充分,因為許多風險仍未受到監管。

我們呼籲先進AI公司承諾遵守以下原則:

1. 不得執行制止與風險相關批評的協議或對發表此類評論的員工進行報復。

2. 為員工報告風險建立一個機密的流程,向董事會、監管機構和合格的獨立組織報告。

3. 支持公開批評的文化,允許員工在保護商業機密的同時公開表達擔憂。

4. 保護那些在內部報告途徑失效時披露風險相關信息的員工。

簽署者(按字母順序):

- Jacob Hilton,前OpenAI

- Daniel Kokotajlo,前OpenAI

- Ramana Kumar,前Google DeepMind

- Neel Nanda,現任Google DeepMind,前Anthropic

- William Saunders,前OpenAI

- Carroll Wainwright,前OpenAI

- Daniel Ziegler,前OpenAI

- 匿名,現任OpenAI(四位個人)

- 匿名,前OpenAI(兩位個人)

支持者(按字母順序):

- Yoshua Bengio

- Geoffrey Hinton

- Stuart Russell

2024年6月4日

Most people like

Find AI tools in YBX