研究人員發現先進聊天機器人發展中的一個重大缺陷。儘管人工智慧模型隨時間變得更加準確,但它們往往會對自己不熟悉的問題給出回答,而不是承認不確定性。這使得用戶對那些自信但錯誤的答案深信不疑,進而導致錯誤資訊的循環。西班牙瓦倫西亞理工大學的教授哈維爾·埃爾南德斯·奧拉洛(José Hernández-Orallo)表示:「如今,它們幾乎回答每一個問題。這意味著正確答案的增多,但錯誤答案也隨之增加。」
埃爾南德斯·奧拉洛與瓦倫西亞人工智慧研究所的同事一起進行了這項研究,探討了三類大型語言模型(LLMs):OpenAI的GPT系列、Meta的LLaMA和開源的BLOOM。研究團隊從相對基礎的GPT-3 ada開始,對比更先進的GPT-4(於2023年3月發布)。值得注意的是,最新版本GPT-4o和o1-preview未包含在分析中。
研究人員對每個模型進行了數千個問題的評估,涵蓋算術、地理、科學等多個主題,以及字母排序等任務。他們根據問題的難度對提示進行了分類。結果顯示,隨著模型的進步,錯誤答案的頻率也增加,顯示出更複雜的聊天機器人類似於那些自信的教授,以為自己能回答所有問題。
人類互動進一步複雜了這個問題。在評估AI輸出準確性的志願者中,常出現將錯誤答案誤判為正確的現象,錯誤率介於10%至40%之間。埃爾南德斯·奧拉洛總結道:「人類無法有效監督這些模型。」
為了減輕這個問題,研究團隊建議AI開發者集中於提升簡單任務的表現,並編程讓聊天機器人避免處理更複雜的問題。埃爾南德斯·奧拉洛補充道:「我們需要讓人們意識到:『我可以在這個領域使用它,而在那個領域我不應該使用它。』」
儘管這是一個明智的建議,但AI公司可能對採納此建議並無太大動力。經常承認自己不知道答案的聊天機器人可能會顯得不那麼先進或有價值,這將導致使用率和開發者的收入減少。因此,我們仍然會看到警告,指出「ChatGPT可能會犯錯」或「Gemini可能顯示不準確資訊」。
最終,我們有責任審查和驗證聊天機器人提供的答案,以避免散播可能造成傷害的錯誤資訊。為了準確起見,務必事先核實聊天機器人的回應。