Présentation de DeepSeek Chat : le nouveau concurrent de ChatGPT en Chine avec un modèle impressionnant de 67 milliards.

Alors que ChatGPT célèbre cette semaine son premier anniversaire, la startup chinoise DeepSeek AI fait son entrée dans le paysage concurrentiel de l'IA conversationnelle avec son nouveau produit : DeepSeek Chat. Actuellement en phase de test alpha, DeepSeek Chat utilise des LLM DeepSeek de 7B et 67B paramètres, entraînés sur un ensemble de données de 2 trillions de tokens en anglais et en chinois. Les benchmarks indiquent que ces modèles excellent dans diverses évaluations, notamment en programmation et en mathématiques, égalant souvent ou dépassant même le Llama 2-70B de Meta.

L'introduction de DeepSeek Chat s'ajoute à l'éventail croissant d'acteurs chinois sur le marché de l'IA, après les lancements notables de Qwen, 01.AI et Baidu. DeepSeek a rendu ses modèles, tant en version de base qu'en version ajustée aux instructions, open-source pour encourager la recherche dans les secteurs académique et commercial. Fondée récemment avec pour mission de percer les secrets de l'AGI, DeepSeek autorise également l'utilisation commerciale sous certaines conditions.

Caractéristiques Clés de DeepSeek Chat et des LLMs

DeepSeek Chat est disponible via une interface web similaire à celle de ChatGPT, permettant aux utilisateurs de se connecter et d'interagir avec le modèle pour diverses tâches. Actuellement, seule la version 67B est accessible sur cette plateforme. Les deux modèles de DeepSeek sont construits sur une architecture de décodeur transformeur auto-régressif similaire à celle de Llama, mais diffèrent dans leurs méthodes d'inférence. Le modèle 7B utilise l'attention multi-têtes (MHA), tandis que le modèle 67B emploie l'attention par requête groupée (GQA).

Selon la page GitHub des modèles, le modèle 7B a été entraîné avec une taille de lot de 2304 et un taux d'apprentissage de 4.2e-4, tandis que le modèle 67B a utilisé une taille de lot de 4608 et un taux d'apprentissage de 3.2e-4. Le protocole d'entraînement comprend un calendrier d'apprentissage en plusieurs étapes, débutant par 2000 étapes de préchauffage avant d'ajuster en fonction du nombre de tokens.

Lors des tests, le DeepSeek LLM 67B Base a montré des capacités générales impressionnantes, surpassant le Llama2 70B Base en raisonnement, programmation, mathématiques et compréhension du chinois. La seule zone où Llama a légèrement mieux performé est dans les QCM de culture générale à 5 essais (79.5 contre 78.9).

La version de chat affinée a également brillé lors de tests non vus auparavant, obtenant un score de 73.78 sur la tâche de code HumanEval pass@1 et 84.1 sur les mathématiques zero-shot GSM8K, la plaçant juste derrière GPT-4 et Claude 2 d'Anthropic. Cependant, malgré ces benchmarks solides, des indications suggèrent que le modèle DeepSeek pourrait avoir des mécanismes de censure. Un utilisateur sur X a noté que les réponses étaient caviardées lorsque le sujet concernait la Chine, remplacées par un message indiquant que le contenu avait été "retiré" pour des raisons de sécurité. Il reste incertain si le modèle de base possède également des filtres similaires.

Offres Diversifiées de LLM

Le lancement des LLM DeepSeek marque une avancée significative pour la Chine dans le domaine de l'IA, élargissant l'éventail de tailles de modèles disponibles pour répondre à des besoins utilisateurs variés. D'autres récentes offres d'IA chinoises incluent Ernie 4.0 de Baidu, Yi 34B de 01.AI, et les modèles de Qwen allant de 1.8B à 72B. Fait intéressant, certains modèles plus petits ont surpassé leurs grands homologues, comme le Yi 34B, qui a montré des capacités équivalentes à celles de Llama-2-70B et Falcon-180B. Cette tendance suggère que les entreprises peuvent réaliser des gains d'efficacité en optant pour des modèles plus compacts sans compromettre leur efficacité, tout en économisant des ressources informatiques et en répondant à divers cas d'utilisation.

La semaine dernière, Microsoft est également entré dans cet espace concurrentiel avec les modèles Orca 2, qui ont démontré des performances supérieures par rapport à des modèles cinq à dix fois plus grands, y compris Llama-2Chat-70B.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles