Diese Woche feiert ChatGPT sein erstes Jubiläum, während das chinesische Startup DeepSeek AI mit seinem neuen Produkt DeepSeek Chat in den wettbewerbsintensiven Bereich der konversationalen KI eintritt. DeepSeek Chat befindet sich derzeit in der Alpha-Testphase und nutzt die 7B- und 67B-Parameter-LLMs von DeepSeek, die auf einem Datensatz von 2 Billionen Tokens in Englisch und Chinesisch trainiert wurden. Benchmarks zeigen, dass diese Modelle in verschiedenen Bewertungen, einschließlich Programmierung und Mathematik, überdurchschnittlich abschneiden und oft mit Meta’s Llama 2-70B konkurrieren oder diese sogar übertreffen.
Die Einführung von DeepSeek Chat erweitert die wachsende Zahl chinesischer Anbieter im KI-Markt, nach bemerkenswerten Veröffentlichungen von Qwen, 01.AI und Baidu. DeepSeek hat sowohl Basis- als auch anweisungsoptimierte Versionen seiner Modelle als Open-Source veröffentlicht, um die Forschung im akademischen und kommerziellen Sektor zu fördern. DeepSeek wurde mit der Mission gegründet, AGI (Artificial General Intelligence) zu entschlüsseln, und gestattet auch kommerzielle Nutzung unter bestimmten Bedingungen.
Hauptmerkmale von DeepSeek Chat und LLMs
DeepSeek Chat ist über eine Weboberfläche ähnlich wie ChatGPT zugänglich, die es den Nutzern ermöglicht, sich anzumelden und mit dem Modell für verschiedene Aufgaben zu interagieren. Derzeit ist nur die 67B-Version über diese Plattform zugänglich.
Beide Modelle von DeepSeek nutzen eine autoregressive Transformer-Decoder-Architektur, ähnlich wie Llama, unterscheiden sich jedoch in ihren Inferenzmethoden. Das kleinere 7B-Modell verwendet Multi-Head Attention (MHA), während das größere 67B-Modell gruppierte Abfrage-Aufmerksamkeit (GQA) einsetzt. Laut der GitHub-Seite der Modelle wurde das 7B-Modell mit einer Batch-Größe von 2304 und einer Lernrate von 4.2e-4 trainiert, während das 67B-Modell eine Batch-Größe von 4608 und eine Lernrate von 3.2e-4 verwendete. Das Trainingsprotokoll umfasst einen mehrstufigen Lernratenplan, der mit 2000 Aufwärmschritten beginnt, bevor er basierend auf der Token-Anzahl angepasst wird.
Im Test zeigte das DeepSeek LLM 67B Base beeindruckende allgemeine Fähigkeiten und übertraf Llama2 70B Base in den Bereichen Logik, Programmierung, Mathematik und Chinesischverständnis. Der einzige Bereich, in dem Llama leicht besser abschnitt, war bei 5-shot Trivia QA (79,5 vs. 78,9).
Die feinabgestimmte Chat-Version schnitt ebenfalls in bisher unbekannten Tests hervorragend ab. Sie erzielte beispielsweise 73,78 Punkte bei der HumanEval pass@1 Programmieraufgabe und 84,1 bei GSM8K zero-shot Mathematik, was sie knapp hinter GPT-4 und Anthropics Claude 2 platziert.
Trotz dieser starken Benchmarks gibt es Hinweise darauf, dass das DeepSeek-Modell möglicherweise Zensurmechanismen aufweist. Ein Nutzer auf X bemerkte, dass Antworten zensiert wurden, wenn das Thema China betraf, und durch eine Nachricht ersetzt wurden, die besagte, dass der Inhalt aus Sicherheitsgründen „zurückgezogen“ wurde. Ob das Basismodell ebenfalls ähnliche Filter hat, bleibt unklar.
Vielfältige LLM-Angebote
Die Veröffentlichung der DeepSeek LLMs stellt einen bedeutenden Fortschritt für China im KI-Bereich dar und erweitert die Auswahl an Modellgrößen, um unterschiedliche Benutzerbedürfnisse zu erfüllen. Weitere aktuelle chinesische KI-Angebote umfassen Baidus Ernie 4.0, 01.AIs Yi 34B und Qwens Modelle, die von 1,8B bis 72B reichen.
Interessanterweise haben einige kleinere Modelle ihre größeren Pendants übertroffen, wie beispielsweise Yi 34B, das Fähigkeiten aufweist, die mit denen von Llama-2-70B und Falcon-180B vergleichbar sind. Dieser Trend deutet darauf hin, dass Unternehmen Effizienzgewinne erzielen können, indem sie sich für kleinere Modelle entscheiden, ohne die Effektivität zu beeinträchtigen, wodurch Rechenressourcen gespart und verschiedene Anwendungsfälle adressiert werden können.
Letzte Woche trat auch Microsoft mit den Orca 2-Modellen in diesen wettbewerbsintensiven Markt ein, die eine überlegene Leistung im Vergleich zu Modellen gezeigt haben, die fünf bis zehnmal so groß sind, einschließlich Llama-2Chat-70B.