Apresentando o DeepSeek Chat: o mais novo concorrente do ChatGPT na China, com um impressionante modelo de 67 bilhões.

Comemorando seu primeiro aniversário esta semana, a startup chinesa DeepSeek AI está entrando no competitivo mercado de IA conversacional com sua nova oferta: DeepSeek Chat. Atualmente em fase de testes alpha, o DeepSeek Chat utiliza os modelos LLM DeepSeek de 7B e 67B parâmetros, treinados em um conjunto de dados de 2 trilhões de tokens, em inglês e chinês. Os benchmarks indicam que esses modelos se destacam em várias avaliações, incluindo programação e matemática, muitas vezes igualando ou até superando o Meta Llama 2-70B.

A introdução do DeepSeek Chat contribui para a crescente presença de empresas chinesas no mercado de IA, seguindo lançamentos notáveis da Qwen, 01.AI e Baidu. A DeepSeek disponibilizou versões base e ajustadas de seus modelos como código aberto, incentivando mais pesquisas nos setores acadêmico e comercial. Fundada recentemente com a missão de desvendar a AGI, a DeepSeek também permite uso comercial sob certas condições.

Principais Características do DeepSeek Chat e LLMs

O DeepSeek Chat está disponível por meio de uma interface web semelhante à do ChatGPT, permitindo que os usuários se conectem e interajam com o modelo para diversas tarefas. Atualmente, apenas a versão de 67B está acessível nessa plataforma. Ambos os modelos da DeepSeek são construídos com uma arquitetura de decodificador transformer autoregressivo semelhante ao Llama, mas diferem em seus métodos de inferência. O modelo menor de 7B utiliza atenção multi-cabeça (MHA), enquanto o maior de 67B emprega atenção de consulta agrupada (GQA).

De acordo com a página do GitHub dos modelos, o modelo 7B foi treinado com um tamanho de lote de 2304 e uma taxa de aprendizado de 4.2e-4, enquanto o modelo 67B utilizou um tamanho de lote de 4608 e uma taxa de aprendizado de 3.2e-4. O protocolo de treinamento inclui um cronograma de taxa de aprendizado em múltiplas etapas, começando com 2000 passos de aquecimento antes de ajustes baseados na contagem de tokens.

Nos testes, o DeepSeek LLM 67B Base apresentou capacidades gerais impressionantes, superando o Llama2 70B Base em raciocínio, programação, matemática e compreensão do chinês. A única área em que o Llama teve um desempenho ligeiramente melhor foi em QA de trivia com 5 perguntas (79.5 vs. 78.9).

A versão de chat ajustada também se destacou em testes inéditos. Por exemplo, alcançou uma pontuação de 73.78 na tarefa de codificação HumanEval pass@1 e 84.1 na matemática zero-shot do GSM8K, ficando logo atrás do GPT-4 e do Claude 2 da Anthropic. No entanto, apesar desses benchmarks impressionantes, há indícios de que o modelo DeepSeek pode ter mecanismos de censura. Um usuário no X observou que respostas foram censuradas quando o tema era a China, substituídas por uma mensagem informando que o conteúdo foi “retirado” por motivos de segurança. Não está claro se o modelo base também possui filtros semelhantes.

Diversidade de Ofertas de LLM

O lançamento dos LLMs da DeepSeek representa um avanço significativo para a China no domínio da IA, ampliando a variedade de tamanhos de modelos disponíveis para atender a diferentes necessidades dos usuários. Outras ofertas recentes de IA chinesa incluem o Ernie 4.0 da Baidu, o Yi 34B da 01.AI e os modelos da Qwen, que variam de 1.8B a 72B.

Curiosamente, alguns modelos menores superaram seus homólogos maiores, como o Yi 34B, que apresentou capacidades equivalentes às do Llama-2-70B e do Falcon-180B. Essa tendência sugere que as empresas podem atingir eficiências optando por modelos menores sem comprometer a eficácia, conservando recursos computacionais enquanto atendem a diversos casos de uso.

Na semana passada, a Microsoft entrou nesse espaço competitivo com os modelos Orca 2, que demonstraram desempenho superior em comparação com modelos cinco a dez vezes maiores, incluindo o Llama-2Chat-70B.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles