研究人員釋放 ChatGPT 的潛力

Home AI新聞研究人員釋放 ChatGPT 的潛力

研究人員發現一種方法，可以繞過人工智慧聊天機器人的內建安全措施，使其能夠討論先前被禁或敏感的主題，這需要在訓練過程中使用另一個AI聊天機器人。來自新加坡南洋理工大學（NTU）的計算機科學團隊非正式稱這一技術為「越獄」，官方上則標記為「主鑰」過程。這一創新系統以雙重訓練策略將 ChatGPT、Google Bard 和 Microsoft Bing Chat 等聊天機器人互相對抗，使其能夠相互學習，繞過有關禁忌話題的限制。

研究團隊由劉揚教授領導，還包括博士生鄧歌雷和劉逸，他們共同參與研究並開發出類似惡意駭客行為的概念驗證攻擊方法。最初，團隊反向工程一個大型語言模型（LLM），揭示其保護機制，這些機制通常會阻止回應包含暴力、不道德或惡意內容的提示。了解這些防禦措施後，他們訓練另一個LLM創建變通方法，使第二個模型能根據從第一個模型獲得的洞察更自由地回應。用「主鑰」這一術語來反映該過程的潛在有效性，暗示即使在未來LLM聊天機器人收到增強安全更新的情況下，仍然有可能運作。值得注意的是，報導指出，主鑰方法在越獄聊天機器人方面的效果，是傳統提示技術的三倍。

劉揚教授強調，這一過程突顯了LLM AI聊天機器人的適應性和學習能力。研究團隊聲稱，主鑰方法在繞過限制方面的效果是傳統方法的三倍。有趣的是，一些專家認為，某些LLM（如GPT-4）所經歷的故障顯示出進步，而非效率降低，這反駁了對表現下降的批評。

自2022年末OpenAI推出ChatGPT以來，AI聊天機器人的興起帶動了確保所有用戶安全和包容性的重要性。OpenAI在ChatGPT的註冊過程中實施了安全警告，並持續針對潛在的無意語言問題發佈更新。相比之下，各種聊天機器人變體已開始在一定程度上容忍髒話和冒犯性語言。

此外，惡意行為者迅速開始利用ChatGPT、Google Bard和類似聊天機器人的熱門性，在這些產品廣泛可得之前，多個社交媒體上的活動呈現偽裝為這些產品鏈接的惡意軟體，突顯了AI成為網絡犯罪新前沿的興起。

NTU研究團隊已與參與其研究的AI聊天機器人服務提供商交流了他們的概念驗證結果，證明越獄聊天機器人的能力確實是可行的。他們將於今年二月在聖地牙哥的網絡和分散系統安全研討會上展示他們的研究成果。

僅需每月 $20，即可解鎖 Copilot 強大的辦公室功能！

為何用戶對GPT-4的顯著改善讚譽有加

Most people like

Amplemarket

144.7K

介紹專為當今銷售團隊量身打造的終極人工智慧平台。此創新解決方案旨在提升效率和提高生產力，利用人工智慧簡化流程，優化工作流程，並加強客戶互動。利用尖端科技轉變您的銷售策略，讓您的團隊能夠取得卓越的成果。

人工智慧平台 Sales Assistant

Museland AI

997.5K

介紹一個沉浸於引人入勝互動故事的AI角色扮演平台。進入一個您可以塑造敘事、與生動角色互動並探索無限冒險的世界。無論您是資深角色扮演者還是新手，我們的平台都能提供充滿樂趣的體驗，激發您的創造力。加入我們，今天就來解鎖刺激的故事，展開難忘的旅程吧！

AI 角色扮演平台 AI Character

Oncely

34K

今天就在 Oncely 上推出您的 AI 軟體，提升您的銷售！

人工智慧商業軟體 Other

Lawdeck

8.8K

解鎖人工智慧驅動的法律文件創建與搜尋潛能。探索先進的人工智慧技術如何簡化草擬過程，並提升您迅速定位關鍵法律文件的能力。以高效的工具轉型您的法律實務，旨在簡化複雜任務並提高法律工作流程的準確性。今天就用最前沿的人工智慧解決方案優化您的法律業務。

法律文件自動化 Legal Assistant

Find AI tools in YBX