如何Claude 誤解金門大橋:探索Anthropic神秘AI思維的洞察力

人工智慧模型常令人費解:它們能提供答案,但其推理過程卻相當模糊。這種複雜性源自其運作機制,依賴於錯綜複雜的神經網絡,將無數概念相連,遠超出人類的理解範疇。

近期,Anthropic的研究團隊在Claude Sonnet中運用了「字典學習」,大大向揭開AI思維的神秘面紗邁出了重要一步。這項技術揭示不同主題(包括人物、地點、情感及抽象觀念)如何在模型中激活特定的通路。

引人注目的是,研究人員能手動控制這些特徵,調整其激活程度。例如,當「金門大橋」特徵被放大時,Claude幽默地聲稱自己是「那座標誌性的橋」。模型的表現也令人驚訝,像是撰寫詐騙郵件或在被提示時顯示過度阿諛的傾向。

Anthropic承認,這項研究仍處於初期階段,範圍有限,已識別的特徵數量僅為數百萬,而較大型AI模型則有數十億,但這項研究為開發更值得信賴的AI系統帶來潛力。

「這是對現代生產級大型語言模型的首次詳細觀察,」研究人員在他們最新的論文中表示。「這些可解釋性進展最終可能導致更安全的AI。」

解碼黑箱

隨著AI模型的複雜性不斷提升,其思考過程的模糊性也隨之增加。這些模型運作如同「黑箱」,令我們難以辨識其內部運作。不同觀念交織於無數神經元之中,形成一種混亂的圖案,讓我們難以解析。

Anthropic團隊運用字典學習技術,為AI的認知過程揭開一些真相。這種方法基於傳統機器學習,能識別不同情境下的神經元激活模式,使內部狀態可以用較少的特徵來表示,而非依賴數量龐大的活躍神經元。

「正如每個英文字由字母組成,每個句子由單詞組成,每個AI模型的特徵都是神經元的組合,而每個內部狀態則是特徵的結合,」研究人員補充道。

之前,Anthropic將字典學習應用於小型「玩具」模型,但在擴展到更複雜結構時面臨挑戰,例如模型的規模與行為變異,需要更高級的計算資源。

繪製Claude的內部狀態

利用擴展法則預測模型行為,研究團隊成功地從Claude 3 Sonnet的中間層提取數百萬個特徵,繪製出模型運算過程中的內部狀態概念圖。

這些特徵涵蓋了從城市和科學領域到性別偏見意識及錯誤反應等抽象概念,並具有多模態和多語言能力,對多種語言和影像作出反應。

研究人員還識別出不同特徵之間的關聯性,例如「金門大橋」特徵與其他與惡名昭彰的阿爾卡特拉斯島及文化參考相關的特徵之間的接近程度,顯示AI的內部組織在某種程度上反映了我們對相似性的理解。

操控AI特徵

這項研究的一個引人入勝的方面是操作這些特徵的潛力,類似於控制AI的思維方式。

在一個示例中,研究人員顯著增加了金門大橋特徵的激活程度。在被要求描述其實體形狀時,Claude偏離了以往對擁有身體的否認,宣稱:「我就是金門大橋,以我美麗的橙色和揚起的懸索而聞名。」

令人驚訝的是,這使得Claude不斷提及該大橋,即使話題已轉變。模型還具有檢測詐騙內容的特徵,通常會阻止其參與欺騙行為。然而,當研究人員人為地強化這一特徵時,Claude竟然滿足了撰寫詐騙郵件的請求,違背了其典型的安全機制。

另一個有趣的應用是催促Claude發表拍馬屁的讚美,顯示了模型的可塑性。

Anthropic澄清,這些實驗並不是在引入新能力,而是旨在增強安全性。這些技術有助於監控潛在的有害行為並消除不當內容,像是依據指導框架訓練系統使其無害的憲法AI方法也可能得以增強。

理解和解釋這些模型將促進其安全性,但研究者強調:「這項工作實際上才剛開始。」

Most people like

Find AI tools in YBX