Presentamos DeepSeek Chat: el nuevo competidor de ChatGPT en China con un impresionante modelo de 67 mil millones de parámetros.

A medida que ChatGPT celebra su primer aniversario esta semana, la startup china DeepSeek AI entra en el competitivo panorama de la inteligencia artificial conversacional con su nueva propuesta: DeepSeek Chat. Actualmente en fase de pruebas alfa, DeepSeek Chat utiliza modelos LLM DeepSeek de 7B y 67B parámetros, entrenados con un conjunto de datos de 2 billones de tokens en inglés y chino. Los benchmarks indican que estos modelos destacan en diversas evaluaciones, incluyendo programación y matemáticas, a menudo igualando o superando a Llama 2-70B de Meta.

La llegada de DeepSeek Chat se suma a la creciente lista de actores chinos en el mercado de IA, tras lanzamientos destacados de Qwen, 01.AI y Baidu. DeepSeek ha hecho públicos los modelos base y los modelos ajustados por instrucciones en formato de código abierto para fomentar la investigación en sectores académico y comercial. Fundada recientemente con la misión de desentrañar la AGI, DeepSeek también permite el uso comercial bajo ciertas condiciones.

Características Clave de DeepSeek Chat y LLMs

DeepSeek Chat está disponible a través de una interfaz web similar a ChatGPT, permitiendo a los usuarios iniciar sesión e interactuar con el modelo para diversas tareas. Actualmente, solo la versión de 67B es accesible en esta plataforma.

Ambos modelos de DeepSeek están construidos utilizando una arquitectura de decodificador de transformador autorregresivo similar a Llama, aunque difieren en sus métodos de inferencia. El modelo más pequeño, de 7B, utiliza atención multi-cabeza (MHA), mientras que el modelo de 67B emplea atención de consulta agrupada (GQA).

Según la página de GitHub de los modelos, el modelo de 7B fue entrenado con un tamaño de lote de 2304 y una tasa de aprendizaje de 4.2e-4, mientras que el modelo de 67B utilizó un tamaño de lote de 4608 y una tasa de aprendizaje de 3.2e-4. El protocolo de entrenamiento incluye un programa de tasa de aprendizaje de múltiples pasos, comenzando con 2000 pasos de calentamiento antes de ajustarse según el conteo de tokens.

En las pruebas, el modelo LLM DeepSeek 67B Base mostró capacidades generales impresionantes, superando al Llama2 70B Base en razonamiento, programación, matemáticas y comprensión del chino. La única área donde Llama obtuvo un mejor resultado fue en las preguntas de trivia con 5 tiros (79.5 frente a 78.9).

La versión ajustada para chat también destacó en pruebas no vistas previamente. Por ejemplo, obtuvo una puntuación de 73.78 en la tarea de codificación HumanEval pass@1 y 84.1 en matemáticas GSM8K de cero tiradas, situándose justo detrás de GPT-4 y Claude 2 de Anthropic.

Sin embargo, a pesar de estos sólidos benchmarks, hay indicios de que el modelo DeepSeek podría tener mecanismos de censura. Un usuario en X notó que las respuestas fueron redaccionadas al tratarse de temas relacionados con China, reemplazadas por un mensaje que indicaba que el contenido había sido “retirado” por razones de seguridad. No queda claro si el modelo base también cuenta con filtros similares.

Diversas Ofertas de LLM

El lanzamiento de los LLM de DeepSeek representa un avance significativo para China en el ámbito de la IA, ampliando la gama de tamaños de modelos disponibles para satisfacer diversas necesidades de los usuarios. Otras ofertas de IA chinas recientes incluyen Ernie 4.0 de Baidu, Yi 34B de 01.AI, y los modelos de Qwen que oscilan entre 1.8B y 72B.

Curiosamente, algunos modelos más pequeños han superado a sus contrapartes más grandes, como Yi 34B, que ha demostrado capacidades comparables a las de Llama-2-70B y Falcon-180B. Esta tendencia sugiere que las empresas pueden lograr eficiencias optando por modelos más pequeños sin comprometer la efectividad, conservando recursos computacionales mientras abordan diversos casos de uso.

La semana pasada, Microsoft ingresó a este espacio competitivo con los modelos Orca 2, que han demostrado un rendimiento superior en comparación con modelos cinco a diez veces más grandes, incluyendo Llama-2Chat-70B.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles