Einführung von DeepSeek Chat: Chinas neuester ChatGPT-Konkurrent mit einem beeindruckenden 67B-Modell

Home KI-Nachrichten Einführung von DeepSeek Chat: Chinas neuester ChatGPT-Konkurrent mit einem beeindruckenden 67B-Modell

Updated on Dezember 1 2023

Diese Woche feiert ChatGPT sein erstes Jubiläum, während das chinesische Startup DeepSeek AI mit seinem neuen Produkt DeepSeek Chat in den wettbewerbsintensiven Bereich der konversationalen KI eintritt. DeepSeek Chat befindet sich derzeit in der Alpha-Testphase und nutzt die 7B- und 67B-Parameter-LLMs von DeepSeek, die auf einem Datensatz von 2 Billionen Tokens in Englisch und Chinesisch trainiert wurden. Benchmarks zeigen, dass diese Modelle in verschiedenen Bewertungen, einschließlich Programmierung und Mathematik, überdurchschnittlich abschneiden und oft mit Meta’s Llama 2-70B konkurrieren oder diese sogar übertreffen.

Die Einführung von DeepSeek Chat erweitert die wachsende Zahl chinesischer Anbieter im KI-Markt, nach bemerkenswerten Veröffentlichungen von Qwen, 01.AI und Baidu. DeepSeek hat sowohl Basis- als auch anweisungsoptimierte Versionen seiner Modelle als Open-Source veröffentlicht, um die Forschung im akademischen und kommerziellen Sektor zu fördern. DeepSeek wurde mit der Mission gegründet, AGI (Artificial General Intelligence) zu entschlüsseln, und gestattet auch kommerzielle Nutzung unter bestimmten Bedingungen.

Hauptmerkmale von DeepSeek Chat und LLMs

DeepSeek Chat ist über eine Weboberfläche ähnlich wie ChatGPT zugänglich, die es den Nutzern ermöglicht, sich anzumelden und mit dem Modell für verschiedene Aufgaben zu interagieren. Derzeit ist nur die 67B-Version über diese Plattform zugänglich.

Beide Modelle von DeepSeek nutzen eine autoregressive Transformer-Decoder-Architektur, ähnlich wie Llama, unterscheiden sich jedoch in ihren Inferenzmethoden. Das kleinere 7B-Modell verwendet Multi-Head Attention (MHA), während das größere 67B-Modell gruppierte Abfrage-Aufmerksamkeit (GQA) einsetzt. Laut der GitHub-Seite der Modelle wurde das 7B-Modell mit einer Batch-Größe von 2304 und einer Lernrate von 4.2e-4 trainiert, während das 67B-Modell eine Batch-Größe von 4608 und eine Lernrate von 3.2e-4 verwendete. Das Trainingsprotokoll umfasst einen mehrstufigen Lernratenplan, der mit 2000 Aufwärmschritten beginnt, bevor er basierend auf der Token-Anzahl angepasst wird.

Im Test zeigte das DeepSeek LLM 67B Base beeindruckende allgemeine Fähigkeiten und übertraf Llama2 70B Base in den Bereichen Logik, Programmierung, Mathematik und Chinesischverständnis. Der einzige Bereich, in dem Llama leicht besser abschnitt, war bei 5-shot Trivia QA (79,5 vs. 78,9).

Die feinabgestimmte Chat-Version schnitt ebenfalls in bisher unbekannten Tests hervorragend ab. Sie erzielte beispielsweise 73,78 Punkte bei der HumanEval pass@1 Programmieraufgabe und 84,1 bei GSM8K zero-shot Mathematik, was sie knapp hinter GPT-4 und Anthropics Claude 2 platziert.

Trotz dieser starken Benchmarks gibt es Hinweise darauf, dass das DeepSeek-Modell möglicherweise Zensurmechanismen aufweist. Ein Nutzer auf X bemerkte, dass Antworten zensiert wurden, wenn das Thema China betraf, und durch eine Nachricht ersetzt wurden, die besagte, dass der Inhalt aus Sicherheitsgründen „zurückgezogen“ wurde. Ob das Basismodell ebenfalls ähnliche Filter hat, bleibt unklar.

Vielfältige LLM-Angebote

Die Veröffentlichung der DeepSeek LLMs stellt einen bedeutenden Fortschritt für China im KI-Bereich dar und erweitert die Auswahl an Modellgrößen, um unterschiedliche Benutzerbedürfnisse zu erfüllen. Weitere aktuelle chinesische KI-Angebote umfassen Baidus Ernie 4.0, 01.AIs Yi 34B und Qwens Modelle, die von 1,8B bis 72B reichen.

Interessanterweise haben einige kleinere Modelle ihre größeren Pendants übertroffen, wie beispielsweise Yi 34B, das Fähigkeiten aufweist, die mit denen von Llama-2-70B und Falcon-180B vergleichbar sind. Dieser Trend deutet darauf hin, dass Unternehmen Effizienzgewinne erzielen können, indem sie sich für kleinere Modelle entscheiden, ohne die Effektivität zu beeinträchtigen, wodurch Rechenressourcen gespart und verschiedene Anwendungsfälle adressiert werden können.

Letzte Woche trat auch Microsoft mit den Orca 2-Modellen in diesen wettbewerbsintensiven Markt ein, die eine überlegene Leistung im Vergleich zu Modellen gezeigt haben, die fünf bis zehnmal so groß sind, einschließlich Llama-2Chat-70B.

Gestaltung der idealen Gen AI-Datenebene: Wichtige Erkenntnisse von Intuit

Werden Grafiker ersetzt? COLE nutzt KI, um sofort bearbeitbare Designs zu erstellen.

Most people like

Bing Image Creator

89.5K

Einführung der KI-gestützten Filmplakat-Generierung für Disney und Pixar: Kreativität und Vorstellungskraft entfesseln! Entdecken Sie die innovative Welt der KI-gesteuerten Plakatgestaltung, in der die zauberhaften Welten von Disney und Pixar in einzigartigen, visuell fesselnden Designs zum Leben erweckt werden. Diese bahnbrechende Technologie nutzt künstliche Intelligenz, um atemberaubende Filmplakate zu erstellen, die die geliebten Charaktere und Geschichten feiern, die wir schätzen. Tauchen Sie ein in die Magie der Kreativität und erleben Sie, wie KI unsere Wahrnehmung klassischer und neuer filmischer Abenteuer verwandelt!

KI-Bilderstellung AI Poster Generator

Quillbot

76.1M

Transformieren Sie Ihr Schreiben mühelos mit diesem leistungsstarken Online-Textumformungstool. Ganz gleich, ob Sie einen Artikel neu formulieren, die Klarheit verbessern oder frische Inhalte erstellen möchten – unsere benutzerfreundliche Plattform macht das Umschreiben zum Kinderspiel. Ideal für Studenten, Profis und Content-Ersteller, hebt dieses Tool Ihr Schreiben hervor und bewahrt dabei die ursprüngliche Bedeutung. Entdecken Sie noch heute, wie einfach es ist, Ihren Text zu verbessern!

Textüberarbeitung AI Rewriter

Klu

205.6K

Entfesseln Sie das Potenzial von Generative AI-Anwendungen mit Klu – Ihrem idealen Partner für das Entwerfen, Bereitstellen und Optimieren innovativer Lösungen.

KI Large Language Models (LLMs)

Kula AI

36.8K

Optimieren Sie Ihren externen Rekrutierungsprozess, indem Sie personalisierte Nachrichten in großem Maßstab versenden.

Outbound-Recruiting AI Content Generator

Find AI tools in YBX