Chinas DeepSeek Coder: Das erste Open-Source-Coding-Modell, das GPT-4 Turbo übertrifft.

Das chinesische KI-Start-up DeepSeek, bekannt für die Entwicklung eines ChatGPT-Konkurrenten, der auf 2 Billionen Tokens in Englisch und Chinesisch trainiert wurde, hat DeepSeek Coder V2 vorgestellt – ein Open-Source-Mischmodell (MoE) für die Codegenerierung.

Aufbauend auf dem Erfolg von DeepSeek-V2, das letzten Monat veröffentlicht wurde, übertrifft DeepSeek Coder V2 die Leistung führender geschlossener Modelle wie GPT-4 Turbo, Claude 3 Opus und Gemini 1.5 Pro. Dieses Modell ist das erste offene, das ein solches Leistungsniveau erreicht, und übertrifft damit Llama 3-70B und andere seiner Kategorie.

Gegründet im Jahr 2022 verfolgt DeepSeek das Ziel, das Geheimnis der AGI mit Neugier zu entschlüsseln. Innerhalb eines Jahres hat das Unternehmen mehrere Modelle, einschließlich der DeepSeek Coder-Familie, als Open Source veröffentlicht. Der ursprüngliche DeepSeek Coder mit 33 Milliarden Parametern zeigte gute Leistung bei der Projektcodevervollständigung, unterstützte jedoch nur 86 Programmiersprachen und hatte ein Kontextfenster von 16K. Die neue Version V2 erweitert die Sprachunterstützung auf 338 und erhöht das Kontextfenster auf 128K, was es ihr ermöglicht, komplexere Programmieranfragen zu bewältigen.

In Benchmarks wie MBPP+, HumanEval und Aider, die zur Bewertung der Codegenerierungs-, Bearbeitungs- und Problemlösungsfähigkeiten dienen, erzielte DeepSeek Coder V2 Werte von 76,2, 90,2 und 73,7 und übertraf damit zahlreiche geschlossene und Open-Source-Modelle, einschließlich GPT-4 Turbo, Claude 3 Opus und Llama-3 70B. Auch in mathematischen Benchmarks (MATH und GSM8K) zeigte das Modell ähnliche starke Leistungen.

Das einzige Modell, das DeepSeek Coder V2 in mehreren Benchmarks übertraf, war GPT-4o, mit leicht höheren Ergebnissen in HumanEval, LiveCode Bench, MATH und GSM8K. Diese Fortschritte basieren auf DeepSeek V2, das ein Mixture of Experts-Framework nutzt und auf einem umfassenden Datensatz von 6 Billionen Tokens trainiert wurde, der sich hauptsächlich auf Code und Mathematik konzentriert, wobei die Daten größtenteils von GitHub und CommonCrawl stammen.

Mit Optionen von 16B und 236B Parametern aktiviert das Modell nur 2,4B bzw. 21B Expertenparameter für spezifische Aufgaben, während die Recheneffizienz optimiert wird.

Neben seinen Programmierfähigkeiten zeigt DeepSeek Coder V2 auch starke allgemeine Fähigkeiten im logischen Denken und im Sprachverständnis. Zum Beispiel erzielte das Modell 79,2 im MMLU-Benchmark und übertraf andere codespezifische Modelle, wobei es eng mit Llama-3 70B konkurrierte. GPT-4o und Claude 3 Opus führen die MMLU-Kategorie mit 88,7 und 88,6 an.

Diese Entwicklung zeigt, dass Open-Source-Coding-Modelle eine breitere Anwendungsbereich erreichen und zunehmend führenden geschlossenen Technologien Konkurrenz machen. DeepSeek Coder V2 steht unter der MIT-Lizenz zur Verfügung, die sowohl für Forschungs- als auch kommerzielle Nutzung erlaubt ist. Nutzer können die 16B- und 236B-Modelle in den Instruct- und Basiskonfigurationen über Hugging Face herunterladen oder sie über eine API auf der DeepSeek-Plattform im Pay-as-you-go-Modell nutzen.

Um die Fähigkeiten zu erkunden, können Nutzer über einen Chatbot auf der Plattform des Unternehmens mit DeepSeek Coder V2 interagieren.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles