邁向通用人工智能的進展:DeepMind對我們現狀的洞察

追求通用人工智慧(AGI)——具備人類等級能力的AI系統——引發科學界的熱烈討論。專家意見不一,部分專家認為AGI的實現仍遙不可及,而另一些則預測其在十年內可能出現。值得注意的是,一些人認為當前的大型語言模型(LLM)中已顯現出“AGI的火花”。

為了澄清這一爭論,谷歌DeepMind的首席AGI科學家Shane Legg帶領的團隊推出了一個新框架,旨在對AGI系統及其前驅的能力和行為進行分類。

定義AGI

開發AGI的一大挑戰在於建立明確的定義。DeepMind研究人員評估了九種定義,包括圖靈測試、咖啡測試、意識評估、經濟指標及任務相關基準。他們強調每一種定義在充分捕捉AGI本質方面的局限性。

例如,雖然LLM能通過圖靈測試,僅生成令人信服的文本並不符合AGI的標準,這一點凸顯了這些模型的當前限制。此外,將意識賦予機器仍然是一個模糊的追求。未能通過特定測試(如在不熟悉的廚房中準備咖啡)表明非AGI狀態,但單靠通過任務並不確認其具備AGI。

為了深入理解AGI,研究人員提出了六項評估人工智慧的標準:

1. 專注於能力:AGI的評估應優先關注能力,而非難以捉摸的人類理解或意識等特質。

2. 通用性與表現:評估必須考慮AI可執行的任務範圍及其表現水平。

3. 認知需求:AGI應涉及認知及元認知任務,而身體化並非必須。

4. 任務潛力:具備執行AGI級別任務的潛力即可,儘管該系統尚未可用。要求部署將引入包括倫理和法律在內的非技術性挑戰。

5. 生態有效性:AGI的指標應強調對社會具有價值的現實任務。

6. 路徑模型:AGI不是單一的最終目標,而是一個包含多個智能層次的連續體。

智能譜系

DeepMind創建了一個矩陣,評估“表現”和“通用性”五個層次,由無AI到超人類AGI。表現反映AI能力與人類技能的比較,而通用性則測量AI能有效處理的任務範圍。

此矩陣區分了狹義AI和通用AI。例如,超人類狹義AI系統如AlphaZero和AlphaFold在特定任務上表現優異。像ChatGPT、Bard和Llama 2這樣的高級語言模型在某些任務(如寫作)上屬於“合格”(第二級),但在數學和推理等領域仍屬於“新興”(第一級)。

研究人員指出,目前的高級語言模型將被分類為第一級通用AI(“新興AGI”),直到它們在更廣泛的任務上表現出更高的能力。

他們還警告,理論分類可能與現實表現不一致。例如,文本到圖像系統可能創建出高品質的圖像,但仍可能因偶爾的不準確而無法達到“藝術大師”的地位。

DeepMind主張AGI基準應涵蓋一系列認知和元認知任務,包括語言能力、推理技能及創造力。他們認識到定義足夠一般性智能可能想到的每一個任務的挑戰,並提議AGI基準是一個動態框架,隨著新任務的出現而不斷調整。

自主性與風險評估

DeepMind引入了一個用於評估AI系統自主性及其相關風險的矩陣。這個矩陣從0級(所有任務由人類執行)到5級(完全自主),包括人類與AI共同分擔責任的層次。

隨著自主性增強,AI系統帶來的風險也不斷演變。在較低級別,風險可能包括工作者技能下降及行業擾動。更高級別的自主性則可能引發更嚴重的擔憂,例如通過個性化內容對個體進行有針對性的操控以及完全自主代理人的倫理不一致。

儘管DeepMind的框架可能有其局限性和批評者,但它仍然是衡量向開發最終可能超越人類能力的AI系統邁進的重要指導。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles