【ディープシークチャットの登場】
今週、ChatGPTが初周年を迎える中、中国のスタートアップであるDeepSeek AIが新たに「DeepSeek Chat」をリリースし、会話型AIの競争に参入しました。現在、アルファテスト段階にあるDeepSeek Chatは、英語と中国語の2兆トークンを学習データとして使用し、7Bと67BパラメータのDeepSeek LLMsを活用しています。ベンチマーク結果は、これらのモデルがコーディングや数学などの評価で優れていることを示しており、多くの場合、MetaのLlama 2-70Bを上回る性能を発揮しています。
DeepSeek Chatの発表は、Qwenや01.AI、Baiduなどの中国企業が相次ぎAI市場に新製品を投入する中でのことです。DeepSeekは、そのベースモデルと教示調整されたバージョンの両方をオープンソース化し、学術および商業分野でのさらなる研究を促進しています。
最近設立されたDeepSeekは、AGIの解明を目指し、特定の条件下で商業利用も許可しています。
DeepSeek ChatとLLMsの主な特徴
DeepSeek Chatは、ChatGPTに似たウェブインターフェースを通じて利用可能で、ユーザーはサインインして様々なタスクにモデルを活用できます。現在、このプラットフォームでは67Bバージョンのみがアクセス可能です。
DeepSeekの2つのモデルはLlamaに類似した自己回帰型トランスフォーマーデコーダーアーキテクチャを基にしていますが、推論方法に違いがあります。小型の7Bモデルはマルチヘッドアテンション(MHA)を、より大きな67Bモデルはグループクエリアテンション(GQA)を採用しています。
モデルのGitHubページによれば、7Bモデルはバッチサイズ2304、学習率4.2e-4でトレーニングされ、67Bモデルはバッチサイズ4608、学習率3.2e-4で訓練されたとされています。トレーニングプロトコルには、最初の2000ウォームアップステップ後にトークン数に基づいて調整されるマルチステップ学習率スケジュールが含まれています。
テストでは、DeepSeek LLM 67B Baseが推論、コーディング、数学、中国語理解において優れた一般的能力を示し、Llama2 70B Baseを上回りました。Llamaが若干優れたのは5ショットトリビアQAのみ(79.5対78.9)です。
ファインチューニングされたチャットバージョンも、これまで未見のテストで優れた成績を達成しています。例えば、HumanEvalのpass@1コーディングタスクでは73.78、GSM8Kゼロショット数学タスクでは84.1を達成し、GPT-4およびAnthropicのClaude 2に次ぐ結果です。
しかし、これらの強力なベンチマークにもかかわらず、DeepSeekモデルには検閲メカニズムが存在する可能性が示唆されています。Xのユーザーは、話題が中国に関するものである場合、回答が「安全上の理由で撤回された」というメッセージに置き換えられたと指摘しています。ベースモデルにも同様のフィルターが存在するかは不明です。
多様なLLMの提供
DeepSeek LLMのリリースは、中国のAI分野における重要な進展を示し、さまざまなユーザーのニーズに応じたモデルサイズの選択肢を拡充しています。最近の他の中国AI製品には、BaiduのErnie 4.0や01.AIのYi 34B、Qwenの1.8Bから72Bまでのモデルがあります。興味深いことに、一部の小型モデルはその大きな対抗製品を上回る能力を示しており、例えばYi 34BはLlama-2-70BやFalcon-180Bと同等の能力を発揮しています。この傾向は、企業が小型モデルを選ぶことで効率を追求し、効果を損なうことなく計算リソースを節約し、多様なユースケースに対応できることを示唆しています。
先週、Microsoftも競争の激しいこの分野にOrca 2モデルを投入し、Llama-2Chat-70Bを含む自社の5倍から10倍のサイズのモデルと比較して優れた性能を示しました。