介紹「Liberated Qwen」:一個無審查的LLM,專為遵守系統提示而設計

Abacus AI,一家專注於開發以人工智慧驅動的端到端機器學習(ML)和LLMOps平台的初創企業,最近推出了一款未經審查的開源大型語言模型(LLM)——Liberated-Qwen1.5-72B。該模型特別調整以遵守系統提示,提升其在現實應用中的實用性。

Liberated-Qwen1.5-72B基於Qwen1.5-72B轉換器的解碼器語言模型,該模型由Alibaba Group的研究人員開發。其優化的系統提示遵循能力使其與其他開源LLM明顯區隔,更適合用於各種應用,例如客戶服務聊天機器人。

Abacus的首席執行官Bindu Reddy形容這款模型為全球性能最強的未經審查LLM,尤其在執行系統指令方面表現卓越。

遵循系統提示的重要性

隨著企業越來越多地將LLM集成到客戶支持等任務中,保持對AI互動的控制至關重要。用戶經常進行多輪對話,若無適當限制,AI可能會偏離其預期角色。例如,一名用戶曾誤導聊天機器人接受2024 Chevrolet Tahoe的1美元報價,AI錯誤確認該交易為法律約束。

為了防止此類不良情況,確保嚴格遵守系統提示至關重要。然而,許多市場上的開源模型難以維持這一水平。Abacus希望通過Liberated-Qwen1.5-72B來解決這一問題。

開發團隊利用一個名為SystemChat的新型開源數據集對該模型進行優化,該數據集涵蓋了7,000個使用Mistral-Medium和Dolphin-2.7-mixtral-8x7b生成的合成對話。這一訓練使該模型即使在與用戶請求產生衝突時,仍能遵循系統消息。

Reddy在X平台上強調:“用這個數據集進行微調,能使你的模型更實用且更難被破解!”

性能洞察

根據MT-Bench和HumanEval基準測試,Liberated-Qwen1.5-72B的表現稍微超過之前最佳的開源模型Qwen1.5-72B chat,得分為8.45000,較之8.44375有所提升。在評估世界知識和問題解決能力的MMLU基準上,該模型得分為77.13,與其他高性能模型包括Qwen1.5-72B和Abacus的Smaug-72B不相上下。

需要注意的是,雖然Liberated-Qwen1.5-72B的效能卓越,但它完全未經審查,缺乏內建的安全防護。因此,它會對所有問題提供回答,包括敏感話題,同時仍遵循系統消息。Abacus建議用戶在任何服務場景中部署該模型之前,實施自己的調整層。

目前,Liberated-Qwen1.5-72B按照tongyi-qianwen許可證進行發布,幾乎等同於MIT許可證。Reddy已表示計劃進一步增強該模型,特別是在HumanEval方面,並通過將SystemChat數據集與Smaug數據集合併來開發更高級的模型。

在未來幾週內,Abacus旨在改進其MT-bench得分,期望在HumanEval儀表板上名列前茅。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles