DeepSeek Coder da China: O Primeiro Modelo de Codificação Open Source que Supera o GPT-4 Turbo

Home Notícias de IA DeepSeek Coder da China: O Primeiro Modelo de Codificação Open Source que Supera o GPT-4 Turbo

A startup chinesa de IA DeepSeek, conhecida por desenvolver um concorrente do ChatGPT treinado com 2 trilhões de tokens em inglês e chinês, lançou o DeepSeek Coder V2, um modelo misto de especialistas (MoE) de código aberto para geração de código.

Baseando-se no sucesso do DeepSeek-V2, lançado no mês passado, o DeepSeek Coder V2 se destaca em tarefas de programação e matemática, suportando mais de 300 linguagens de programação. Ele supera modelos fechados líderes, como GPT-4 Turbo, Claude 3 Opus e Gemini 1.5 Pro, marcando um marco importante como o primeiro modelo aberto a atingir esse nível de desempenho, ultrapassando Llama 3-70B e outros em sua categoria.

Fundada em 2022, a DeepSeek tem o objetivo de "desvendar o mistério da AGI com curiosidade." Em um ano, a empresa open-sourced diversos modelos, incluindo a família DeepSeek Coder. O DeepSeek Coder original, com 33 bilhões de parâmetros, obteve bons resultados em conclusão e preenchimento de código a nível de projeto, mas suportava apenas 86 linguagens de programação e possuía uma janela de contexto de 16K. A nova versão V2 amplia o suporte linguístico para 338 e aumenta a janela de contexto para 128K, permitindo enfrentar desafios de codificação mais complexos.

Em benchmarks como MBPP+, HumanEval e Aider, projetados para avaliar habilidades de geração, edição de código e resolução de problemas, o DeepSeek Coder V2 alcançou pontuações de 76.2, 90.2 e 73.7, respectivamente, superando muitos modelos, tanto fechados quanto de código aberto, incluindo GPT-4 Turbo, Claude 3 Opus e Llama-3 70B. Também apresentou resultados fortes em benchmarks matemáticos (MATH e GSM8K).

O único modelo a superar o DeepSeek Coder V2 em múltiplos benchmarks foi o GPT-4o, com pontuações ligeiramente superiores em HumanEval, LiveCode Bench, MATH e GSM8K. Esses avanços foram obtidos a partir do DeepSeek V2, que utiliza uma estrutura de Mistura de Especialistas, pré-treinado em um extenso conjunto de dados de 6 trilhões de tokens focados em código e matemática, proveniente principalmente do GitHub e CommonCrawl.

Com opções de 16B e 236B de parâmetros, o modelo ativa apenas 2.4B e 21B de parâmetros de especialistas para tarefas específicas, otimizando a eficiência computacional.

Além de sua habilidade em codificação, o DeepSeek Coder V2 demonstra fortes capacidades de raciocínio geral e compreensão de linguagem. Por exemplo, obteve 79.2 no benchmark MMLU, superando outros modelos específicos de código e igualando-se ao Llama-3 70B. GPT-4o e Claude 3 Opus lideram a categoria MMLU com pontuações de 88.7 e 88.6, respectivamente.

Este desenvolvimento indica que os modelos de codificação de código aberto estão progredindo em um escopo mais amplo de aplicações, rivalizando cada vez mais com as principais tecnologias de código fechado.

O DeepSeek Coder V2 está disponível sob a licença MIT, permitindo uso tanto para pesquisa quanto comercial. Os usuários podem baixar os modelos de 16B e 236B em configurações de instrução e base através do Hugging Face, ou acessá-los via API na plataforma DeepSeek com um modelo de pagamento sob demanda.

Para explorar suas capacidades, os usuários podem interagir com o DeepSeek Coder V2 por meio de um chatbot na plataforma da empresa.

Augie Studio: Revolucionando a Criação de Vídeos com IA para Marqueteiros e Empresas como o Canva

Co-Fundador e CTO da Runway Anuncia Lançamento da Geração 3 Alpha em Apenas Dias para Assinantes Pagantes

Most people like

Airparser

16.9K

Transforme seu processo de extração de dados com nosso parser avançado alimentado por IA. Desbloqueie o poder da inteligência artificial para otimizar e aprimorar sua coleta e análise de dados de forma eficiente.

extração de dados AI Document Extraction

Ghost Craft

9.4K

Apresentamos uma ferramenta impulsionada por IA que cria conteúdo otimizado para SEO, especificamente desenvolvido para sua marca. Eleve sua presença online e envolva seu público com mensagens personalizadas que ressoam e ocupam posições mais altas nos resultados de busca.

Impulsionado por IA Writing Assistants

DataVisor

49.4K

Apresentamos uma plataforma de gestão de fraudes impulsionada por IA, projetada especificamente para empresas que buscam mitigar riscos e proteger seus ativos de forma eficaz. Esta solução inovadora utiliza algoritmos avançados para detectar e prevenir atividades fraudulentas, garantindo um ambiente seguro para as operações do seu negócio.

Detecção de fraudes Other

Wondering

16.9K

Desbloqueie o potencial das percepções de usuários impulsionadas por IA para aprimorar seus produtos como nunca antes. Ao aproveitar análises avançadas, as empresas podem ajustar suas ofertas, garantindo que atendam às necessidades e preferências dos clientes de maneira eficaz. Descubra como a integração de insights de IA pode resultar em produtos mais otimizados e prontos para o mercado, que ressoam com seu público.

Pesquisa de Usuários AI Product Description Generator

Find AI tools in YBX