A startup chinesa de IA DeepSeek, conhecida por desenvolver um concorrente do ChatGPT treinado com 2 trilhões de tokens em inglês e chinês, lançou o DeepSeek Coder V2, um modelo misto de especialistas (MoE) de código aberto para geração de código.
Baseando-se no sucesso do DeepSeek-V2, lançado no mês passado, o DeepSeek Coder V2 se destaca em tarefas de programação e matemática, suportando mais de 300 linguagens de programação. Ele supera modelos fechados líderes, como GPT-4 Turbo, Claude 3 Opus e Gemini 1.5 Pro, marcando um marco importante como o primeiro modelo aberto a atingir esse nível de desempenho, ultrapassando Llama 3-70B e outros em sua categoria.
Fundada em 2022, a DeepSeek tem o objetivo de "desvendar o mistério da AGI com curiosidade." Em um ano, a empresa open-sourced diversos modelos, incluindo a família DeepSeek Coder. O DeepSeek Coder original, com 33 bilhões de parâmetros, obteve bons resultados em conclusão e preenchimento de código a nível de projeto, mas suportava apenas 86 linguagens de programação e possuía uma janela de contexto de 16K. A nova versão V2 amplia o suporte linguístico para 338 e aumenta a janela de contexto para 128K, permitindo enfrentar desafios de codificação mais complexos.
Em benchmarks como MBPP+, HumanEval e Aider, projetados para avaliar habilidades de geração, edição de código e resolução de problemas, o DeepSeek Coder V2 alcançou pontuações de 76.2, 90.2 e 73.7, respectivamente, superando muitos modelos, tanto fechados quanto de código aberto, incluindo GPT-4 Turbo, Claude 3 Opus e Llama-3 70B. Também apresentou resultados fortes em benchmarks matemáticos (MATH e GSM8K).
O único modelo a superar o DeepSeek Coder V2 em múltiplos benchmarks foi o GPT-4o, com pontuações ligeiramente superiores em HumanEval, LiveCode Bench, MATH e GSM8K. Esses avanços foram obtidos a partir do DeepSeek V2, que utiliza uma estrutura de Mistura de Especialistas, pré-treinado em um extenso conjunto de dados de 6 trilhões de tokens focados em código e matemática, proveniente principalmente do GitHub e CommonCrawl.
Com opções de 16B e 236B de parâmetros, o modelo ativa apenas 2.4B e 21B de parâmetros de especialistas para tarefas específicas, otimizando a eficiência computacional.
Além de sua habilidade em codificação, o DeepSeek Coder V2 demonstra fortes capacidades de raciocínio geral e compreensão de linguagem. Por exemplo, obteve 79.2 no benchmark MMLU, superando outros modelos específicos de código e igualando-se ao Llama-3 70B. GPT-4o e Claude 3 Opus lideram a categoria MMLU com pontuações de 88.7 e 88.6, respectivamente.
Este desenvolvimento indica que os modelos de codificação de código aberto estão progredindo em um escopo mais amplo de aplicações, rivalizando cada vez mais com as principais tecnologias de código fechado.
O DeepSeek Coder V2 está disponível sob a licença MIT, permitindo uso tanto para pesquisa quanto comercial. Os usuários podem baixar os modelos de 16B e 236B em configurações de instrução e base através do Hugging Face, ou acessá-los via API na plataforma DeepSeek com um modelo de pagamento sob demanda.
Para explorar suas capacidades, os usuários podem interagir com o DeepSeek Coder V2 por meio de um chatbot na plataforma da empresa.