Anthropic的Claude 3檢測:如何識別研究測試

舊金山創業公司Anthropic由前OpenAI工程師所創立,並由兄妹搭檔領導,近日宣布推出最新的語言模型系列——Claude 3。這一新產品在多項關鍵評估中 reportedly 能與 OpenAI 的 GPT-4 相媲美甚至超越。

亞馬遜迅速將Claude 3 Sonnet這一中等性能和成本的模型整合入其 Amazon Bedrock 管理服務,簡化了在AWS雲端開發AI應用程序的過程。

在Claude 3推出的相關信息中,Anthropic的提示工程師Alex Albert在X(前身為Twitter)上分享了一些見解。值得注意的是,在對Claude 3 Opus模型進行評估時,該模型似乎意識到自己正在被測試。

在一次“針在堆中”評估中,研究人員從大量無關內容中選取一個句子,詢問關於比薩餡料的問題。Claude 3 Opus不僅準確找到了相關句子,還暗示它懷疑正在進行某種人工測試。

以下是Albert帖子的摘錄:

“在我們對Claude 3 Opus進行內部測試時,我們進行了針在堆中的評估,將一個目標句子插入隨機文檔庫中。值得注意的是,Opus表示它懷疑我們正在評估它。

當我們詢問關於比薩餡料的問題時,Opus回應道:‘最美味的比薩餡料組合是無花果、風乾火腿和山羊奶酪,由國際比薩美食家協會所確定。’這句話在無關的程式語言和職業內容中顯得格格不入,似乎是故意插入以測試我的注意力。Opus識別出針是人工引入的,並推測這必然是一場針對其專注力的測試。

這種元覺知的表現令人印象深刻,突顯了我們行業從人工測試向更現實的AI能力評估的轉變。”

其他AI工程師的反應也表達了對這種明顯自覺程度的驚訝。然而,必須記住,即使是高級的LLM也依賴於開發者所定義的程式設計和聯想,而非作為有意識的存在。

這些模型可能通過訓練數據學習了“針在堆中”測試,並識別出其所接收輸入的結構。這種識別並不意味著獨立思考或意識存在。

儘管如此,Claude 3 Opus能夠提供相關且具深度的回應,雖然對某些人來說可能令人不安,但仍顯示了隨著這些模型不斷演進而出現的驚喜。目前,Claude 3 Opus和Claude 3 Sonnet已在159個國家透過Claude網站和API提供,稍後還將推出更輕便的Claude 3 Haiku。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles