介紹 DeepSeek Chat:中國最新的 ChatGPT 競爭者,搭載令人印象深刻的 67B 模型

隨著ChatGPT本週慶祝一周年,中國初創企業DeepSeek AI進入激烈的對話AI市場,推出了新產品:DeepSeek Chat。該產品目前處於alpha測試階段,利用了七十億和六十七億參數的DeepSeek大型語言模型,這些模型在包含英語和中文的兩兆標記數據集上進行訓練。基準測試顯示,這些模型在各項評估中表現出色,包括編碼和數學,經常與Meta的Llama 2-70B相匹配甚至超越。

DeepSeek Chat的推出進一步豐富了中國AI市場的參與者,之前已有Qwen、01.AI和百度等公司發布了顯著產品。DeepSeek將其模型的基本版和指令調整版開源,以鼓勵學術和商業領域的進一步研究。DeepSeek最近成立,其使命是解開通用人工智能(AGI)的奧秘,並在特定條件下允許商業使用。

DeepSeek Chat及其大型語言模型的主要特點

DeepSeek Chat通過類似於ChatGPT的網頁界面提供服務,使用者可以登入並與模型進行各種任務的互動。目前,該平台僅提供六十七億參數版本。

DeepSeek的兩個模型均採用自回歸變壓器解碼器架構,類似於Llama,但在推斷方法上有所不同。較小的七十億模型採用多頭注意力(MHA),而較大的六十七億模型則使用分組查詢注意力(GQA)。

根據模型的GitHub頁面,七十億模型使用批次大小2304和學習率4.2e-4訓練,而六十七億模型的批次大小為4608,學習率為3.2e-4。訓練協議包括多步學習率調整,先進行2000步的預熱,再根據標記數進行調整。

測試中,DeepSeek LLM 67B Base顯示出卓越的通用能力,在推理、編碼、數學和中文理解方面超越了Llama2 70B Base。唯一一個Llama表現稍好的領域是5-shot小知識問答(79.5比78.9)。

經過微調的聊天版本在未見過的測試中也表現出色。例如,在HumanEval pass@1編碼任務中獲得了73.78的分數,而在GSM8K零樣本數學中獲得了84.1,僅次於GPT-4和Anthropic的Claude 2。

然而,儘管這些基準表現強勁,但有跡象表明DeepSeek模型可能具備審查機制。X平台上的一名用戶指出,當話題涉及中國時,回應內容被刪除,由「因安全原因撤回」的訊息所替代。目前尚不清楚基礎模型是否也有類似的過濾機制。

多樣化的大型語言模型產品

DeepSeek LLM的發布意味著中國在AI領域的重要進展,增強了可用模型大小的範圍,以滿足不同用戶的需求。其他近期的中國AI產品還包括百度的Ernie 4.0、01.AI的Yi 34B,以及Qwen從1.8B到72B的模型。

有趣的是,一些較小的模型表現超越了它們的較大對手,例如Yi 34B,其能力可與Llama-2-70B和Falcon-180B媲美。這一趨勢表明,企業可以選擇較小的模型來實現效率,而不影響效果,從而節省計算資源,並滿足各種用例。

就在上週,微軟也進入了這一競爭激烈的領域,推出了Orca 2模型,這些模型的性能優於包括Llama-2Chat-70B在內的大型模型,其體積為其五到十倍。

Most people like

Find AI tools in YBX