Apresentando o DeepSeek Chat: o mais novo concorrente do ChatGPT na China, com um impressionante modelo de 67 bilhões.

Home Notícias de IA Apresentando o DeepSeek Chat: o mais novo concorrente do ChatGPT na China, com um impressionante modelo de 67 bilhões.

Updated on dezembro 1 2023

Comemorando seu primeiro aniversário esta semana, a startup chinesa DeepSeek AI está entrando no competitivo mercado de IA conversacional com sua nova oferta: DeepSeek Chat. Atualmente em fase de testes alpha, o DeepSeek Chat utiliza os modelos LLM DeepSeek de 7B e 67B parâmetros, treinados em um conjunto de dados de 2 trilhões de tokens, em inglês e chinês. Os benchmarks indicam que esses modelos se destacam em várias avaliações, incluindo programação e matemática, muitas vezes igualando ou até superando o Meta Llama 2-70B.

A introdução do DeepSeek Chat contribui para a crescente presença de empresas chinesas no mercado de IA, seguindo lançamentos notáveis da Qwen, 01.AI e Baidu. A DeepSeek disponibilizou versões base e ajustadas de seus modelos como código aberto, incentivando mais pesquisas nos setores acadêmico e comercial. Fundada recentemente com a missão de desvendar a AGI, a DeepSeek também permite uso comercial sob certas condições.

Principais Características do DeepSeek Chat e LLMs

O DeepSeek Chat está disponível por meio de uma interface web semelhante à do ChatGPT, permitindo que os usuários se conectem e interajam com o modelo para diversas tarefas. Atualmente, apenas a versão de 67B está acessível nessa plataforma. Ambos os modelos da DeepSeek são construídos com uma arquitetura de decodificador transformer autoregressivo semelhante ao Llama, mas diferem em seus métodos de inferência. O modelo menor de 7B utiliza atenção multi-cabeça (MHA), enquanto o maior de 67B emprega atenção de consulta agrupada (GQA).

De acordo com a página do GitHub dos modelos, o modelo 7B foi treinado com um tamanho de lote de 2304 e uma taxa de aprendizado de 4.2e-4, enquanto o modelo 67B utilizou um tamanho de lote de 4608 e uma taxa de aprendizado de 3.2e-4. O protocolo de treinamento inclui um cronograma de taxa de aprendizado em múltiplas etapas, começando com 2000 passos de aquecimento antes de ajustes baseados na contagem de tokens.

Nos testes, o DeepSeek LLM 67B Base apresentou capacidades gerais impressionantes, superando o Llama2 70B Base em raciocínio, programação, matemática e compreensão do chinês. A única área em que o Llama teve um desempenho ligeiramente melhor foi em QA de trivia com 5 perguntas (79.5 vs. 78.9).

A versão de chat ajustada também se destacou em testes inéditos. Por exemplo, alcançou uma pontuação de 73.78 na tarefa de codificação HumanEval pass@1 e 84.1 na matemática zero-shot do GSM8K, ficando logo atrás do GPT-4 e do Claude 2 da Anthropic. No entanto, apesar desses benchmarks impressionantes, há indícios de que o modelo DeepSeek pode ter mecanismos de censura. Um usuário no X observou que respostas foram censuradas quando o tema era a China, substituídas por uma mensagem informando que o conteúdo foi “retirado” por motivos de segurança. Não está claro se o modelo base também possui filtros semelhantes.

Diversidade de Ofertas de LLM

O lançamento dos LLMs da DeepSeek representa um avanço significativo para a China no domínio da IA, ampliando a variedade de tamanhos de modelos disponíveis para atender a diferentes necessidades dos usuários. Outras ofertas recentes de IA chinesa incluem o Ernie 4.0 da Baidu, o Yi 34B da 01.AI e os modelos da Qwen, que variam de 1.8B a 72B.

Curiosamente, alguns modelos menores superaram seus homólogos maiores, como o Yi 34B, que apresentou capacidades equivalentes às do Llama-2-70B e do Falcon-180B. Essa tendência sugere que as empresas podem atingir eficiências optando por modelos menores sem comprometer a eficácia, conservando recursos computacionais enquanto atendem a diversos casos de uso.

Na semana passada, a Microsoft entrou nesse espaço competitivo com os modelos Orca 2, que demonstraram desempenho superior em comparação com modelos cinco a dez vezes maiores, incluindo o Llama-2Chat-70B.

Projetando a Camada de Dados Ideal para IA Generativa: Principais Insights da Intuit

Os Designers Gráficos Estão Sendo Substituídos? A COLE Utiliza IA para Criar Designs Editáveis Instantaneamente

Most people like

Sivi AI

61.8K

Sivi é uma ferramenta de IA avançada que transforma rapidamente texto em impressionantes designs gráficos, tornando mais fácil do que nunca dar vida às suas visões criativas.

Ferramenta de design de IA AI Ad Generator

Konch

24.2K

Alcance transcrições de alta precisão em vários idiomas sem esforço. Simplifique o processo e eleve seus projetos com serviços de transcrição confiáveis, adaptados às suas necessidades.

transcrição Transcription

Paraphrasing.io

189.6K

Procurando uma ferramenta de paráfrase em IA confiável para reescrever textos com facilidade? Se você precisa aprimorar sua escrita, evitar plágio ou simplificar ideias complexas, nossa ferramenta avançada foi projetada para ajudar. Com apenas alguns cliques, você pode transformar seu texto original em uma nova versão que mantém o mesmo significado, ao mesmo tempo que melhora a clareza e o engajamento. Descubra como nossa solução impulsionada por IA pode elevar seu conteúdo e fazer sua escrita brilhar.

Ferramenta de Parafraseamento de IA AI Rewriter

Devzery

8.3K

Transforme seu processo de testes de software com a geração de casos de teste impulsionada por IA de ponta.

Potenciado por IA AI Testing & QA

Find AI tools in YBX