AI 聊天機器人：為何高級系統鮮少承認無法提供所有答案

Home AI新聞 AI 聊天機器人：為何高級系統鮮少承認無法提供所有答案

研究人員發現先進聊天機器人發展中的一個重大缺陷。儘管人工智慧模型隨時間變得更加準確，但它們往往會對自己不熟悉的問題給出回答，而不是承認不確定性。這使得用戶對那些自信但錯誤的答案深信不疑，進而導致錯誤資訊的循環。西班牙瓦倫西亞理工大學的教授哈維爾·埃爾南德斯·奧拉洛（José Hernández-Orallo）表示：「如今，它們幾乎回答每一個問題。這意味著正確答案的增多，但錯誤答案也隨之增加。」

埃爾南德斯·奧拉洛與瓦倫西亞人工智慧研究所的同事一起進行了這項研究，探討了三類大型語言模型（LLMs）：OpenAI的GPT系列、Meta的LLaMA和開源的BLOOM。研究團隊從相對基礎的GPT-3 ada開始，對比更先進的GPT-4（於2023年3月發布）。值得注意的是，最新版本GPT-4o和o1-preview未包含在分析中。

研究人員對每個模型進行了數千個問題的評估，涵蓋算術、地理、科學等多個主題，以及字母排序等任務。他們根據問題的難度對提示進行了分類。結果顯示，隨著模型的進步，錯誤答案的頻率也增加，顯示出更複雜的聊天機器人類似於那些自信的教授，以為自己能回答所有問題。

人類互動進一步複雜了這個問題。在評估AI輸出準確性的志願者中，常出現將錯誤答案誤判為正確的現象，錯誤率介於10%至40%之間。埃爾南德斯·奧拉洛總結道：「人類無法有效監督這些模型。」

為了減輕這個問題，研究團隊建議AI開發者集中於提升簡單任務的表現，並編程讓聊天機器人避免處理更複雜的問題。埃爾南德斯·奧拉洛補充道：「我們需要讓人們意識到：『我可以在這個領域使用它，而在那個領域我不應該使用它。』」

儘管這是一個明智的建議，但AI公司可能對採納此建議並無太大動力。經常承認自己不知道答案的聊天機器人可能會顯得不那麼先進或有價值，這將導致使用率和開發者的收入減少。因此，我們仍然會看到警告，指出「ChatGPT可能會犯錯」或「Gemini可能顯示不準確資訊」。

最終，我們有責任審查和驗證聊天機器人提供的答案，以避免散播可能造成傷害的錯誤資訊。為了準確起見，務必事先核實聊天機器人的回應。

FCC對政治顧問處以600萬美元罰款以懲罰其虛假深度偽造自動撥號電話

DoNotPay的「機器律師」因未持有執照而被聯邦貿易委員會罰款193,000美元

Most people like

PostgresML

26.1K

介紹一個快速、易於使用且穩健的MLOps平台，旨在簡化機器學習操作。體驗工作流程中的無縫整合和提高的效率。

MLops AI Developer Tools

Luma AI video Generator Free Online

485.3K

在當今的數位環境中，吸引注意力比以往任何時候都更加重要。AI 影片生成器可以輕鬆將文字和照片轉換成引人入勝的影片。這一創新工具簡化了創作過程，使您能夠透過驚艷的視覺敘事吸引觀眾。無論您是內容創作者、行銷人員還是商業擁有者，利用 AI 影片生成器都能提升您的故事講述能力並增強您的線上形象。探索如何將您的文字和照片轉化為引人注目的影片，與觀眾產生共鳴並提升互動。

AI 视频生成器 Text to Video

Reworkd AI

309.5K

網路數據提取的AI代理介紹在大數據時代，從網路中提取有價值的信息已成為企業和研究者的重要任務。AI代理正在革命化這一過程，通過自動化網路數據提取，讓用戶能夠高效而準確地獲取洞察。這些智能代理利用先進的算法和機器學習技術，簡化了篩選大量線上信息的任務，將原始數據轉變為可行的智能。探索AI代理如何改變網路數據提取的格局以及它們為當今數位世界中的組織所帶來的眾多好處。

網頁資料擷取 AI Advertising Assistant

Memrizz

99K

在當今快節奏的世界中，有效的學習方法對於掌握新資訊至關重要。一種日益受歡迎的創新工具是利用人工智慧製作個性化的抽認卡。這項技術根據個人需求調整學習體驗，提升記憶與理解。無論你是在為考試做準備、學習新語言，還是需要記住關鍵事實，AI生成的抽認卡都能簡化你的學習過程，並使學習更加有趣。探索如何利用AI來改變你的學習習慣，並提升你的學習成效。

抽認卡 AI Content Generator

Find AI tools in YBX