Китайский стартап в области искусственного интеллекта DeepSeek, известный разработкой конкурента ChatGPT, обученного на 2 триллионах токенов на английском и китайском языках, представил DeepSeek Coder V2 — открытую модель смешанных экспертов (MoE) для генерации кода.
После успешного запуска DeepSeek-V2 в прошлом месяце, новая версия Coder V2 демонстрирует выдающиеся результаты в программировании и математических задачах, поддерживая более 300 языков программирования. Она превосходит ведущие закрытые модели, такие как GPT-4 Turbo, Claude 3 Opus и Gemini 1.5 Pro, став первым открытым решением, достигнувшим такого уровня производительности, превосходя Llama 3-70B и других из своего класса.
Основанная в 2022 году, DeepSeek стремится "раскрыть тайну AGI с помощью любопытства". За год компания открыла несколько моделей, включая семью DeepSeek Coder. Первая версия DeepSeek Coder, имеющая 33 миллиарда параметров, успешно справлялась с проектным завершением кода, но поддерживала только 86 языков программирования и имела контекстное окно в 16K. Новая версия V2 расширяет поддержку языков до 338 и увеличивает контекстное окно до 128K, позволяя решать более сложные задачи программирования.
В бенчмарках, таких как MBPP+, HumanEval и Aider, направленных на оценку генерации, редактирования кода и решения задач, DeepSeek Coder V2 показал результаты 76.2, 90.2 и 73.7 соответственно, обойдя многие закрытые и открытые модели, включая GPT-4 Turbo, Claude 3 Opus и Llama-3 70B. Она также продемонстрировала хорошие результаты в математических бенчмарках (MATH и GSM8K).
Единственной моделью, превышающей результаты DeepSeek Coder V2 в нескольких бенчмарках, стал GPT-4o, показавший немного более высокие оценки в HumanEval, LiveCode Bench, MATH и GSM8K. DeepSeek использовала успехи DeepSeek V2, которая функционирует на основе инфраструктуры Mixture of Experts и была предварительно обучена на обширном наборе данных из 6 триллионов токенов, сосредоточенных на коде и математике, в основном с использованием данных из GitHub и CommonCrawl.
С моделями на 16B и 236B параметров, Coder V2 активирует только 2.4B и 21B параметров для конкретных задач, оптимизируя вычислительную эффективность.
Помимо своих мощных навыков программирования, DeepSeek Coder V2 обладает выдающимися способностями к общему рассуждению и пониманию языка. Например, она набрала 79.2 в бенчмарке MMLU, обойдя другие специализированные модели и близко подобравшись к Llama-3 70B. В то же время, GPT-4o и Claude 3 Opus лидируют в категории MMLU с результатами 88.7 и 88.6 соответственно.
Это развитие указывает на то, что открытые модели для кодирования развиваются в более широком диапазоне применения, все чаще конкурируя с ведущими закрытыми технологиями.
DeepSeek Coder V2 доступен по лицензии MIT, что позволяет использовать его как в исследовательских, так и в коммерческих целях. Пользователи могут скачать модели на 16B и 236B в конфигурациях instruct и base через Hugging Face или получить доступ к ним через API на платформе DeepSeek по модели "плати по мере использования".
Чтобы исследовать возможности модели, пользователи могут взаимодействовать с DeepSeek Coder V2 через чат-бота на платформе компании.