介紹「Liberated Qwen」：一個無審查的LLM，專為遵守系統提示而設計

Home AI新聞介紹「Liberated Qwen」：一個無審查的LLM，專為遵守系統提示而設計

Abacus AI，一家專注於開發以人工智慧驅動的端到端機器學習（ML）和LLMOps平台的初創企業，最近推出了一款未經審查的開源大型語言模型（LLM）——Liberated-Qwen1.5-72B。該模型特別調整以遵守系統提示，提升其在現實應用中的實用性。

Liberated-Qwen1.5-72B基於Qwen1.5-72B轉換器的解碼器語言模型，該模型由Alibaba Group的研究人員開發。其優化的系統提示遵循能力使其與其他開源LLM明顯區隔，更適合用於各種應用，例如客戶服務聊天機器人。

Abacus的首席執行官Bindu Reddy形容這款模型為全球性能最強的未經審查LLM，尤其在執行系統指令方面表現卓越。

遵循系統提示的重要性

隨著企業越來越多地將LLM集成到客戶支持等任務中，保持對AI互動的控制至關重要。用戶經常進行多輪對話，若無適當限制，AI可能會偏離其預期角色。例如，一名用戶曾誤導聊天機器人接受2024 Chevrolet Tahoe的1美元報價，AI錯誤確認該交易為法律約束。

為了防止此類不良情況，確保嚴格遵守系統提示至關重要。然而，許多市場上的開源模型難以維持這一水平。Abacus希望通過Liberated-Qwen1.5-72B來解決這一問題。

開發團隊利用一個名為SystemChat的新型開源數據集對該模型進行優化，該數據集涵蓋了7,000個使用Mistral-Medium和Dolphin-2.7-mixtral-8x7b生成的合成對話。這一訓練使該模型即使在與用戶請求產生衝突時，仍能遵循系統消息。

Reddy在X平台上強調：“用這個數據集進行微調，能使你的模型更實用且更難被破解！”

性能洞察

根據MT-Bench和HumanEval基準測試，Liberated-Qwen1.5-72B的表現稍微超過之前最佳的開源模型Qwen1.5-72B chat，得分為8.45000，較之8.44375有所提升。在評估世界知識和問題解決能力的MMLU基準上，該模型得分為77.13，與其他高性能模型包括Qwen1.5-72B和Abacus的Smaug-72B不相上下。

需要注意的是，雖然Liberated-Qwen1.5-72B的效能卓越，但它完全未經審查，缺乏內建的安全防護。因此，它會對所有問題提供回答，包括敏感話題，同時仍遵循系統消息。Abacus建議用戶在任何服務場景中部署該模型之前，實施自己的調整層。

目前，Liberated-Qwen1.5-72B按照tongyi-qianwen許可證進行發布，幾乎等同於MIT許可證。Reddy已表示計劃進一步增強該模型，特別是在HumanEval方面，並通過將SystemChat數據集與Smaug數據集合併來開發更高級的模型。

在未來幾週內，Abacus旨在改進其MT-bench得分，期望在HumanEval儀表板上名列前茅。

專家呼籲設立法律“安全港”，以便研究人員、記者和藝術家能夠評估人工智慧技術。

Cognizant 在舊金山推出尖端實驗室以促進企業 AI 採用