推出 DeepSeek 聊天：中国最新的 ChatGPT 竞争者，凭借令人印象深刻的 67 亿参数模型

Home AI News CN 推出 DeepSeek 聊天：中国最新的 ChatGPT 竞争者，凭借令人印象深刻的 67 亿参数模型

Updated on 十二月 1 2023

在庆祝ChatGPT一周年之际，中国初创公司DeepSeek AI正通过其新产品DeepSeek Chat进军竞争激烈的对话式AI市场。DeepSeek Chat目前处于alpha测试阶段，使用了7B和67B参数的DeepSeek大语言模型（LLM），这些模型是在包含2000亿个令牌的中英文数据集上进行训练的。基准测试显示，这些模型在编码和数学等多项评估中表现出色，常常与Meta的Llama 2-70B相匹配甚至超越。

DeepSeek Chat的推出，进一步丰富了中国AI市场中的玩家，继Qwen、01.AI和百度等知名公司之后，DeepSeek也向学术和商业领域开放了其基础版和指令调优版模型，鼓励进一步研究。DeepSeek成立不久，致力于实现通用人工智能（AGI），并在特定条件下允许商业使用。

DeepSeek Chat及其关键特性

DeepSeek Chat通过类似ChatGPT的网页界面提供服务，用户可以登录并与模型进行各种任务的交互。目前，该平台仅支持67B版本。

DeepSeek的两个模型均采用自回归变压器解码器架构，类似于Llama，但推断方法不同。较小的7B模型使用多头注意力（MHA），而较大的67B模型则采用分组查询注意力（GQA）。根据模型的GitHub页面，7B模型的训练批次大小为2304，学习率为4.2e-4；而67B模型的批次大小为4608，学习率为3.2e-4。训练协议包括多步学习率调度，初始设置2000个预热步骤，随后根据令牌数量进行调整。

在测试中，DeepSeek LLM 67B基础版展现出出色的综合能力，在推理、编码、数学和中文理解方面超越了Llama2 70B基础版。唯一稍微优于DeepSeek的领域是5-shot问答，Llama得分79.5，而DeepSeek为78.9。

经过调优的聊天版本在之前未见过的测试中也表现出色。例如，它在HumanEval的pass@1编码任务中得分达73.78，在GSM8K零-shot数学测试中的得分为84.1，仅次于GPT-4和Anthropic的Claude 2。

然而，尽管这些基准表现强劲，仍有迹象表明DeepSeek模型可能存在审查机制。一位在X平台的用户注意到，当话题与中国有关时，模型的响应会被删除，并以“由于安全原因，内容已撤回”的消息取而代之。目前尚不清楚基础模型是否也存在类似过滤。

多样化的LLM产品

DeepSeek LLM的发布标志着中国在人工智能领域的重大进步，扩展了可供选择的模型规模，以满足不同用户的需求。其他最近的中国AI产品包括百度的Ernie 4.0、01.AI的Yi 34B，以及Qwen的各类模型，范围从1.8B到72B。

有趣的是，一些较小的模型表现超越了更大的模型，例如，Yi 34B的能力与Llama-2-70B和Falcon-180B相当。这一趋势表明，企业通过选择较小的模型实现高效，可以节省计算资源，同时满足多种应用场景。

就在上周，微软也加入了这一竞争领域，推出了Orca 2模型，其表现优于五到十倍规模的模型，包括Llama-2Chat-70B。

设计理想的生成AI数据层：来自Intuit的关键洞察

平面设计师会被取代吗？COLE运用AI瞬间生成可编辑设计

Most people like

Voice Out

27.4K

增强阅读体验的文本转语音扩展旨在为用户提供更流畅和互动的阅读方式。通过将文本转换成自然流畅的语音，这些扩展不仅提高了信息获取的便利性，还助力那些有视觉障碍或阅读障碍的用户，更好地参与到数字内容中。无论是在学习、休闲还是日常工作中，文本转语音扩展都能为用户带来更为丰富和便捷的阅读体验。

语音合成扩展文本转语音工具

AI poem generator

25.1K

第一款AI诗歌生成器

其他 AI博客作家

Thatch

204.5K

全球专家精心策划的旅行指南与规划服务，为您提供无与伦比的旅行体验。

旅游指南 AI旅行规划师

Articula

使用您的独特声音翻译通话和语音备忘录。

通话翻译其他

Find AI tools in YBX