ディープシークチャットの紹介：中国の最新ChatGPT競合、67Bモデルを搭載した革新的なAIチャットボット

Home AIニュースディープシークチャットの紹介：中国の最新ChatGPT競合、67Bモデルを搭載した革新的なAIチャットボット

【ディープシークチャットの登場】

今週、ChatGPTが初周年を迎える中、中国のスタートアップであるDeepSeek AIが新たに「DeepSeek Chat」をリリースし、会話型AIの競争に参入しました。現在、アルファテスト段階にあるDeepSeek Chatは、英語と中国語の2兆トークンを学習データとして使用し、7Bと67BパラメータのDeepSeek LLMsを活用しています。ベンチマーク結果は、これらのモデルがコーディングや数学などの評価で優れていることを示しており、多くの場合、MetaのLlama 2-70Bを上回る性能を発揮しています。

DeepSeek Chatの発表は、Qwenや01.AI、Baiduなどの中国企業が相次ぎAI市場に新製品を投入する中でのことです。DeepSeekは、そのベースモデルと教示調整されたバージョンの両方をオープンソース化し、学術および商業分野でのさらなる研究を促進しています。

最近設立されたDeepSeekは、AGIの解明を目指し、特定の条件下で商業利用も許可しています。

DeepSeek ChatとLLMsの主な特徴

DeepSeek Chatは、ChatGPTに似たウェブインターフェースを通じて利用可能で、ユーザーはサインインして様々なタスクにモデルを活用できます。現在、このプラットフォームでは67Bバージョンのみがアクセス可能です。

DeepSeekの2つのモデルはLlamaに類似した自己回帰型トランスフォーマーデコーダーアーキテクチャを基にしていますが、推論方法に違いがあります。小型の7Bモデルはマルチヘッドアテンション（MHA）を、より大きな67Bモデルはグループクエリアテンション（GQA）を採用しています。

モデルのGitHubページによれば、7Bモデルはバッチサイズ2304、学習率4.2e-4でトレーニングされ、67Bモデルはバッチサイズ4608、学習率3.2e-4で訓練されたとされています。トレーニングプロトコルには、最初の2000ウォームアップステップ後にトークン数に基づいて調整されるマルチステップ学習率スケジュールが含まれています。

テストでは、DeepSeek LLM 67B Baseが推論、コーディング、数学、中国語理解において優れた一般的能力を示し、Llama2 70B Baseを上回りました。Llamaが若干優れたのは5ショットトリビアQAのみ（79.5対78.9）です。

ファインチューニングされたチャットバージョンも、これまで未見のテストで優れた成績を達成しています。例えば、HumanEvalのpass@1コーディングタスクでは73.78、GSM8Kゼロショット数学タスクでは84.1を達成し、GPT-4およびAnthropicのClaude 2に次ぐ結果です。

しかし、これらの強力なベンチマークにもかかわらず、DeepSeekモデルには検閲メカニズムが存在する可能性が示唆されています。Xのユーザーは、話題が中国に関するものである場合、回答が「安全上の理由で撤回された」というメッセージに置き換えられたと指摘しています。ベースモデルにも同様のフィルターが存在するかは不明です。

多様なLLMの提供

DeepSeek LLMのリリースは、中国のAI分野における重要な進展を示し、さまざまなユーザーのニーズに応じたモデルサイズの選択肢を拡充しています。最近の他の中国AI製品には、BaiduのErnie 4.0や01.AIのYi 34B、Qwenの1.8Bから72Bまでのモデルがあります。興味深いことに、一部の小型モデルはその大きな対抗製品を上回る能力を示しており、例えばYi 34BはLlama-2-70BやFalcon-180Bと同等の能力を発揮しています。この傾向は、企業が小型モデルを選ぶことで効率を追求し、効果を損なうことなく計算リソースを節約し、多様なユースケースに対応できることを示唆しています。

先週、Microsoftも競争の激しいこの分野にOrca 2モデルを投入し、Llama-2Chat-70Bを含む自社の5倍から10倍のサイズのモデルと比較して優れた性能を示しました。

理想的な生成AIデータレイヤーの設計：インテュイットからの重要な洞察

グラフィックデザイナーは AI に取って代わられるのか？COLE が実現する瞬時に編集可能なデザイン

Most people like

LinkDR

75K

効果的なリンク構築戦略を通じてSEOを強化するために特別に設計された自動化ソフトウェアで、あなたのウェブサイトの可視性を向上させましょう。

SEO AI SEO Assistant

DreamGen

977.9K

DreamGenであなたの創造力に火をつけよう。

AIロールプレイ AI Story Writing

Vanna

49.3K

Vannaは、データベースのSQL生成を自動化するために設計された革新的なAI駆動のPythonパッケージであり、あなたの知能的なビジネスインテリジェンスアシスタントとして機能します。

AI AI SQL Query Builder

Viggle AI

27.1K

静止画像を魅力的な動画に変換することが、革新的なAI画像から動画への生成ツールのおかげで、かつてないほど簡単になりました。この最先端技術は人工知能を活用して視覚コンテンツをアニメーション化し、写真やイラストに命を吹き込むことができます。コンテンツクリエイターやマーケター、あるいはただデジタルストーリーテリングを強化したい方々にとって、このツールは創造的な可能性の世界を開きます。AI画像から動画への生成ツールが、動的なビジュアルを通じて私たちのアイデアを視覚化し共有する方法をどのように再定義しているのかを発見してください。

AIアニメーションツール AI Character

Find AI tools in YBX