중국의 DeepSeek Coder: GPT-4 Turbo보다 성능이 뛰어난 최초의 오픈소스 코딩 모델

Home AI 뉴스 중국의 DeepSeek Coder: GPT-4 Turbo보다 성능이 뛰어난 최초의 오픈소스 코딩 모델

중국의 AI 스타트업 DeepSeek는 2조 개의 영어 및 중국어 토큰으로 훈련된 ChatGPT 경쟁자를 개발하여, 코드 생성을 위한 오픈 소스 전문가 혼합(MoE) 모델인 DeepSeek Coder V2를 공개했습니다.

지난달 출시된 DeepSeek-V2의 성공을 바탕으로, DeepSeek Coder V2는 300개 이상의 프로그래밍 언어를 지원하며 코딩 및 수학 작업에서 뛰어난 성능을 발휘합니다. 이는 GPT-4 Turbo, Claude 3 Opus, Gemini 1.5 Pro와 같은 주요 폐쇄형 모델을 초월하여, Llama 3-70B 등을 능가하는 첫 번째 오픈 모델로 중요한 이정표를 세웠습니다.

2022년에 설립된 DeepSeek는 "AGI의 신비를 호기심으로 풀어내겠다"는 목표를 가지고 있습니다. 창립 1년 만에 DeepSeek Coder 시리즈를 포함한 여러 모델을 오픈 소스화했습니다. 기존 DeepSeek Coder는 330억 개의 파라미터로 프로젝트 수준의 코드 완성과 인필링에서 좋은 성능을 보였으나, 86개의 프로그래밍 언어만 지원하고 16K의 컨텍스트 윈도우를 가졌습니다. 새로운 V2는 언어 지원을 338개로 확대하고 컨텍스트 윈도우를 128K로 증가시켜 더 복잡한 코딩 도전에 대응할 수 있게 되었습니다.

코드 생성, 편집 및 문제 해결 능력을 평가하기 위해 설계된 MBPP+, HumanEval, Aider 벤치마크에서 DeepSeek Coder V2는 각각 76.2, 90.2, 73.7의 점수를 기록하며 많은 폐쇄형 및 오픈 소스 모델을 초월했습니다. 수학 벤치마크(MATH 및 GSM8K)에서도 비슷한 강력한 결과를 보였습니다.

여러 벤치마크에서 DeepSeek Coder V2를 초월한 유일한 모델은 GPT-4o로, HumanEval, LiveCode Bench, MATH 및 GSM8K에서 약간 높은 점수를 기록했습니다. DeepSeek는 코드와 수학에 중점을 둔 6조 개의 토큰 데이터셋을 활용한 전문가 혼합 프레임워크인 DeepSeek V2에서 이러한 발전을 이끌어냈습니다.

모델은 160억 및 236억 개의 파라미터 옵션을 제공하며, 특정 작업을 위해 각각 24억 및 210억 개의 전문가 파라미터만 활성화하여 컴퓨팅 효율성을 최적화합니다.

코딩 능력 외에도 DeepSeek Coder V2는 일반적인 추론 및 언어 이해 능력에서도 강력함을 보여줍니다. 예를 들어, MMLU 벤치마크에서 79.2점을 기록하여 다른 코드 전용 모델을 초월하고 Llama-3 70B에 가깝게 일치합니다. MMLU 카테고리에서는 GPT-4o와 Claude 3 Opus가 각각 88.7 및 88.6점으로 선두를 달리고 있습니다.

이 발전은 오픈 소스 코딩 모델이 보다 넓은 응용 분야에서 발전하고 있음을 보여주며, 선도적인 폐쇄형 기술에 점점 더 맞서고 있음을 시사합니다.

DeepSeek Coder V2는 MIT 라이선스 하에 연구 및 상업적 용도로 사용 가능하며, 사용자는 Hugging Face를 통해 16억 및 236억 모델을 지시 및 기본 구성으로 다운로드하거나 DeepSeek 플랫폼의 API를 통해 사용량 기반으로 접근할 수 있습니다.

사용자는 회사 플랫폼의 챗봇을 통해 DeepSeek Coder V2의 기능을 탐색할 수 있습니다.

OpenVLA: 다목적 응용을 위한 오픈소스 일반 로봇 프레임워크

런웨이 공동 창립자이자 CTO가 유료 구독자를 위한 Gen-3 알파 버전을 며칠 안에 출시한다고 발표했습니다.

Most people like

Stable Diffusion 3 AI Image Generator Free Online

43.3K

최근 몇 년 동안, 고급 텍스트-이미지 모델의 출현은 인공지능 및 창의적 콘텐츠 생성 분야에 혁신을 가져왔습니다. 이 정교한 시스템은 심층 학습 기법을 활용하여 텍스트 설명을 놀라운 시각적 표현으로 변환합니다. 언어와 맥락의 뉘앙스를 이해함으로써, 이 모델들은 예술가, 마케터, 창작자들이 아이디어를 동적으로 실현할 수 있도록 돕습니다. 이 기사에서는 텍스트-이미지 기술의 메커니즘, 응용 프로그램 및 미래 가능성을 탐구하며, 다양한 산업과 창의적 관행에 미친 영향을 다룹니다.

텍스트-투-이미지 모델 Large Language Models (LLMs)

RSIP Vision

15.1K

오늘날 빠르게 변화하는 의료 환경에서, 의료 이미지 분석과 인공지능(AI)의 융합은 진단 및 치료 계획에 혁신을 가져오고 있습니다. 이 분야의 선두주자로서 우리는 정교한 이미징 기법과 AI 기반 통찰력을 통해 환자 결과를 향상시키는 데 전념하고 있습니다. 우리의 선구적인 노력은 기술을 발전시키는 것에 그치지 않고, 의학의 치료 기준을 재정의하며, 정밀 의료의 추구에서 중요한 초석이 되고 있습니다. 우리의 획기적인 혁신이 의료 이미징의 미래를 어떻게 형성하고 있으며, 의료 시스템 전반의 효율성을 어떻게 향상시키고 있는지 알아보세요.

의료 이미지 분석 Healthcare

Move AI

6.9K

다가오는 이사에 대한 걱정이 크신가요? 저희 AI 기반 이사 도우미는 이사 과정을 간소화하여 더 쉽고 효율적으로 만들어 드립니다. 이사 업무를 정리하는 것부터 귀하의 필요에 맞는 최상의 서비스를 찾는 것까지, 저희 스마트 플랫폼은 모든 단계에서 개인화된 지원을 제공합니다. 이사할 때의 혼란을 뒤로하고, 저희 혁신적인 AI 기술로 보다 매끄럽고 즐거운 경험을 만나보세요. 저희가 귀하의 이사를 원활한 전환으로 만들어 드리겠습니다.

AI 이동 도우미 AI Customer Service Assistant

Optimo

52.7K

Optimo는 마케팅 작업을 간소화하여 마케터가 시간을 절약하고 즉각적인 결과를 손쉽게 달성할 수 있게 합니다.

AI 기반 마케팅 도구 AI Advertising Assistant

Find AI tools in YBX