중국의 AI 스타트업 DeepSeek는 2조 개의 영어 및 중국어 토큰으로 훈련된 ChatGPT 경쟁자를 개발하여, 코드 생성을 위한 오픈 소스 전문가 혼합(MoE) 모델인 DeepSeek Coder V2를 공개했습니다.
지난달 출시된 DeepSeek-V2의 성공을 바탕으로, DeepSeek Coder V2는 300개 이상의 프로그래밍 언어를 지원하며 코딩 및 수학 작업에서 뛰어난 성능을 발휘합니다. 이는 GPT-4 Turbo, Claude 3 Opus, Gemini 1.5 Pro와 같은 주요 폐쇄형 모델을 초월하여, Llama 3-70B 등을 능가하는 첫 번째 오픈 모델로 중요한 이정표를 세웠습니다.
2022년에 설립된 DeepSeek는 "AGI의 신비를 호기심으로 풀어내겠다"는 목표를 가지고 있습니다. 창립 1년 만에 DeepSeek Coder 시리즈를 포함한 여러 모델을 오픈 소스화했습니다. 기존 DeepSeek Coder는 330억 개의 파라미터로 프로젝트 수준의 코드 완성과 인필링에서 좋은 성능을 보였으나, 86개의 프로그래밍 언어만 지원하고 16K의 컨텍스트 윈도우를 가졌습니다. 새로운 V2는 언어 지원을 338개로 확대하고 컨텍스트 윈도우를 128K로 증가시켜 더 복잡한 코딩 도전에 대응할 수 있게 되었습니다.
코드 생성, 편집 및 문제 해결 능력을 평가하기 위해 설계된 MBPP+, HumanEval, Aider 벤치마크에서 DeepSeek Coder V2는 각각 76.2, 90.2, 73.7의 점수를 기록하며 많은 폐쇄형 및 오픈 소스 모델을 초월했습니다. 수학 벤치마크(MATH 및 GSM8K)에서도 비슷한 강력한 결과를 보였습니다.
여러 벤치마크에서 DeepSeek Coder V2를 초월한 유일한 모델은 GPT-4o로, HumanEval, LiveCode Bench, MATH 및 GSM8K에서 약간 높은 점수를 기록했습니다. DeepSeek는 코드와 수학에 중점을 둔 6조 개의 토큰 데이터셋을 활용한 전문가 혼합 프레임워크인 DeepSeek V2에서 이러한 발전을 이끌어냈습니다.
모델은 160억 및 236억 개의 파라미터 옵션을 제공하며, 특정 작업을 위해 각각 24억 및 210억 개의 전문가 파라미터만 활성화하여 컴퓨팅 효율성을 최적화합니다.
코딩 능력 외에도 DeepSeek Coder V2는 일반적인 추론 및 언어 이해 능력에서도 강력함을 보여줍니다. 예를 들어, MMLU 벤치마크에서 79.2점을 기록하여 다른 코드 전용 모델을 초월하고 Llama-3 70B에 가깝게 일치합니다. MMLU 카테고리에서는 GPT-4o와 Claude 3 Opus가 각각 88.7 및 88.6점으로 선두를 달리고 있습니다.
이 발전은 오픈 소스 코딩 모델이 보다 넓은 응용 분야에서 발전하고 있음을 보여주며, 선도적인 폐쇄형 기술에 점점 더 맞서고 있음을 시사합니다.
DeepSeek Coder V2는 MIT 라이선스 하에 연구 및 상업적 용도로 사용 가능하며, 사용자는 Hugging Face를 통해 16억 및 236억 모델을 지시 및 기본 구성으로 다운로드하거나 DeepSeek 플랫폼의 API를 통해 사용량 기반으로 접근할 수 있습니다.
사용자는 회사 플랫폼의 챗봇을 통해 DeepSeek Coder V2의 기능을 탐색할 수 있습니다.