Présentation de DeepSeek Chat : le nouveau concurrent de ChatGPT en Chine avec un modèle impressionnant de 67 milliards.

Home Actualités IA Présentation de DeepSeek Chat : le nouveau concurrent de ChatGPT en Chine avec un modèle impressionnant de 67 milliards.

Updated on décembre 1 2023

Alors que ChatGPT célèbre cette semaine son premier anniversaire, la startup chinoise DeepSeek AI fait son entrée dans le paysage concurrentiel de l'IA conversationnelle avec son nouveau produit : DeepSeek Chat. Actuellement en phase de test alpha, DeepSeek Chat utilise des LLM DeepSeek de 7B et 67B paramètres, entraînés sur un ensemble de données de 2 trillions de tokens en anglais et en chinois. Les benchmarks indiquent que ces modèles excellent dans diverses évaluations, notamment en programmation et en mathématiques, égalant souvent ou dépassant même le Llama 2-70B de Meta.

L'introduction de DeepSeek Chat s'ajoute à l'éventail croissant d'acteurs chinois sur le marché de l'IA, après les lancements notables de Qwen, 01.AI et Baidu. DeepSeek a rendu ses modèles, tant en version de base qu'en version ajustée aux instructions, open-source pour encourager la recherche dans les secteurs académique et commercial. Fondée récemment avec pour mission de percer les secrets de l'AGI, DeepSeek autorise également l'utilisation commerciale sous certaines conditions.

Caractéristiques Clés de DeepSeek Chat et des LLMs

DeepSeek Chat est disponible via une interface web similaire à celle de ChatGPT, permettant aux utilisateurs de se connecter et d'interagir avec le modèle pour diverses tâches. Actuellement, seule la version 67B est accessible sur cette plateforme. Les deux modèles de DeepSeek sont construits sur une architecture de décodeur transformeur auto-régressif similaire à celle de Llama, mais diffèrent dans leurs méthodes d'inférence. Le modèle 7B utilise l'attention multi-têtes (MHA), tandis que le modèle 67B emploie l'attention par requête groupée (GQA).

Selon la page GitHub des modèles, le modèle 7B a été entraîné avec une taille de lot de 2304 et un taux d'apprentissage de 4.2e-4, tandis que le modèle 67B a utilisé une taille de lot de 4608 et un taux d'apprentissage de 3.2e-4. Le protocole d'entraînement comprend un calendrier d'apprentissage en plusieurs étapes, débutant par 2000 étapes de préchauffage avant d'ajuster en fonction du nombre de tokens.

Lors des tests, le DeepSeek LLM 67B Base a montré des capacités générales impressionnantes, surpassant le Llama2 70B Base en raisonnement, programmation, mathématiques et compréhension du chinois. La seule zone où Llama a légèrement mieux performé est dans les QCM de culture générale à 5 essais (79.5 contre 78.9).

La version de chat affinée a également brillé lors de tests non vus auparavant, obtenant un score de 73.78 sur la tâche de code HumanEval pass@1 et 84.1 sur les mathématiques zero-shot GSM8K, la plaçant juste derrière GPT-4 et Claude 2 d'Anthropic. Cependant, malgré ces benchmarks solides, des indications suggèrent que le modèle DeepSeek pourrait avoir des mécanismes de censure. Un utilisateur sur X a noté que les réponses étaient caviardées lorsque le sujet concernait la Chine, remplacées par un message indiquant que le contenu avait été "retiré" pour des raisons de sécurité. Il reste incertain si le modèle de base possède également des filtres similaires.

Offres Diversifiées de LLM

Le lancement des LLM DeepSeek marque une avancée significative pour la Chine dans le domaine de l'IA, élargissant l'éventail de tailles de modèles disponibles pour répondre à des besoins utilisateurs variés. D'autres récentes offres d'IA chinoises incluent Ernie 4.0 de Baidu, Yi 34B de 01.AI, et les modèles de Qwen allant de 1.8B à 72B. Fait intéressant, certains modèles plus petits ont surpassé leurs grands homologues, comme le Yi 34B, qui a montré des capacités équivalentes à celles de Llama-2-70B et Falcon-180B. Cette tendance suggère que les entreprises peuvent réaliser des gains d'efficacité en optant pour des modèles plus compacts sans compromettre leur efficacité, tout en économisant des ressources informatiques et en répondant à divers cas d'utilisation.

La semaine dernière, Microsoft est également entré dans cet espace concurrentiel avec les modèles Orca 2, qui ont démontré des performances supérieures par rapport à des modèles cinq à dix fois plus grands, y compris Llama-2Chat-70B.

Concevoir la couche de données idéale pour l'IA générative : informations clés d'Intuit

Les graphistes sont-ils remplacés ? COLE utilise l'IA pour créer des designs modifiables instantanément.

Most people like

BizPlanner.ai

29.3K

Transformez des pages vierges en plans détaillés et réalisables conçus pour la réussite.

Outils alimentés par l'IA AI Business Ideas Generator

Course Hero

21.9M

Débloquez une richesse de ressources d'étude, des notes complètes, une préparation efficace aux tests et une assistance experte pour vos devoirs, le tout à portée de main. Améliorez votre expérience d'apprentissage grâce à des tuteurs compétents prêts à vous accompagner dans votre parcours académique.

Ressources d'étude AI Course

ChatGPT Image Generator

32.1K

Libérez votre créativité avec le générateur d'images ChatGPT ! Explorez des possibilités infinies et transformez vos idées en visuels époustouflants grâce à notre outil puissant. Que vous soyez artiste, designer ou simplement passionné de créativité, le générateur d'images ChatGPT peut donner vie à vos visions comme jamais auparavant !

IA Text to Image

Hubtype

23.4K

Débloquer l'engagement client de nouvelle génération avec des applications conversationnelles

engagement client AI Customer Service Assistant

Find AI tools in YBX