在庆祝ChatGPT一周年之际,中国初创公司DeepSeek AI正通过其新产品DeepSeek Chat进军竞争激烈的对话式AI市场。DeepSeek Chat目前处于alpha测试阶段,使用了7B和67B参数的DeepSeek大语言模型(LLM),这些模型是在包含2000亿个令牌的中英文数据集上进行训练的。基准测试显示,这些模型在编码和数学等多项评估中表现出色,常常与Meta的Llama 2-70B相匹配甚至超越。
DeepSeek Chat的推出,进一步丰富了中国AI市场中的玩家,继Qwen、01.AI和百度等知名公司之后,DeepSeek也向学术和商业领域开放了其基础版和指令调优版模型,鼓励进一步研究。DeepSeek成立不久,致力于实现通用人工智能(AGI),并在特定条件下允许商业使用。
DeepSeek Chat及其关键特性
DeepSeek Chat通过类似ChatGPT的网页界面提供服务,用户可以登录并与模型进行各种任务的交互。目前,该平台仅支持67B版本。
DeepSeek的两个模型均采用自回归变压器解码器架构,类似于Llama,但推断方法不同。较小的7B模型使用多头注意力(MHA),而较大的67B模型则采用分组查询注意力(GQA)。根据模型的GitHub页面,7B模型的训练批次大小为2304,学习率为4.2e-4;而67B模型的批次大小为4608,学习率为3.2e-4。训练协议包括多步学习率调度,初始设置2000个预热步骤,随后根据令牌数量进行调整。
在测试中,DeepSeek LLM 67B基础版展现出出色的综合能力,在推理、编码、数学和中文理解方面超越了Llama2 70B基础版。唯一稍微优于DeepSeek的领域是5-shot问答,Llama得分79.5,而DeepSeek为78.9。
经过调优的聊天版本在之前未见过的测试中也表现出色。例如,它在HumanEval的pass@1编码任务中得分达73.78,在GSM8K零-shot数学测试中的得分为84.1,仅次于GPT-4和Anthropic的Claude 2。
然而,尽管这些基准表现强劲,仍有迹象表明DeepSeek模型可能存在审查机制。一位在X平台的用户注意到,当话题与中国有关时,模型的响应会被删除,并以“由于安全原因,内容已撤回”的消息取而代之。目前尚不清楚基础模型是否也存在类似过滤。
多样化的LLM产品
DeepSeek LLM的发布标志着中国在人工智能领域的重大进步,扩展了可供选择的模型规模,以满足不同用户的需求。其他最近的中国AI产品包括百度的Ernie 4.0、01.AI的Yi 34B,以及Qwen的各类模型,范围从1.8B到72B。
有趣的是,一些较小的模型表现超越了更大的模型,例如,Yi 34B的能力与Llama-2-70B和Falcon-180B相当。这一趋势表明,企业通过选择较小的模型实现高效,可以节省计算资源,同时满足多种应用场景。
就在上周,微软也加入了这一竞争领域,推出了Orca 2模型,其表现优于五到十倍规模的模型,包括Llama-2Chat-70B。