Presentamos DeepSeek Chat: el nuevo competidor de ChatGPT en China con un impresionante modelo de 67 mil millones de parámetros.

Home Noticias de IA Presentamos DeepSeek Chat: el nuevo competidor de ChatGPT en China con un impresionante modelo de 67 mil millones de parámetros.

Updated on diciembre 1 2023

A medida que ChatGPT celebra su primer aniversario esta semana, la startup china DeepSeek AI entra en el competitivo panorama de la inteligencia artificial conversacional con su nueva propuesta: DeepSeek Chat. Actualmente en fase de pruebas alfa, DeepSeek Chat utiliza modelos LLM DeepSeek de 7B y 67B parámetros, entrenados con un conjunto de datos de 2 billones de tokens en inglés y chino. Los benchmarks indican que estos modelos destacan en diversas evaluaciones, incluyendo programación y matemáticas, a menudo igualando o superando a Llama 2-70B de Meta.

La llegada de DeepSeek Chat se suma a la creciente lista de actores chinos en el mercado de IA, tras lanzamientos destacados de Qwen, 01.AI y Baidu. DeepSeek ha hecho públicos los modelos base y los modelos ajustados por instrucciones en formato de código abierto para fomentar la investigación en sectores académico y comercial. Fundada recientemente con la misión de desentrañar la AGI, DeepSeek también permite el uso comercial bajo ciertas condiciones.

Características Clave de DeepSeek Chat y LLMs

DeepSeek Chat está disponible a través de una interfaz web similar a ChatGPT, permitiendo a los usuarios iniciar sesión e interactuar con el modelo para diversas tareas. Actualmente, solo la versión de 67B es accesible en esta plataforma.

Ambos modelos de DeepSeek están construidos utilizando una arquitectura de decodificador de transformador autorregresivo similar a Llama, aunque difieren en sus métodos de inferencia. El modelo más pequeño, de 7B, utiliza atención multi-cabeza (MHA), mientras que el modelo de 67B emplea atención de consulta agrupada (GQA).

Según la página de GitHub de los modelos, el modelo de 7B fue entrenado con un tamaño de lote de 2304 y una tasa de aprendizaje de 4.2e-4, mientras que el modelo de 67B utilizó un tamaño de lote de 4608 y una tasa de aprendizaje de 3.2e-4. El protocolo de entrenamiento incluye un programa de tasa de aprendizaje de múltiples pasos, comenzando con 2000 pasos de calentamiento antes de ajustarse según el conteo de tokens.

En las pruebas, el modelo LLM DeepSeek 67B Base mostró capacidades generales impresionantes, superando al Llama2 70B Base en razonamiento, programación, matemáticas y comprensión del chino. La única área donde Llama obtuvo un mejor resultado fue en las preguntas de trivia con 5 tiros (79.5 frente a 78.9).

La versión ajustada para chat también destacó en pruebas no vistas previamente. Por ejemplo, obtuvo una puntuación de 73.78 en la tarea de codificación HumanEval pass@1 y 84.1 en matemáticas GSM8K de cero tiradas, situándose justo detrás de GPT-4 y Claude 2 de Anthropic.

Sin embargo, a pesar de estos sólidos benchmarks, hay indicios de que el modelo DeepSeek podría tener mecanismos de censura. Un usuario en X notó que las respuestas fueron redaccionadas al tratarse de temas relacionados con China, reemplazadas por un mensaje que indicaba que el contenido había sido “retirado” por razones de seguridad. No queda claro si el modelo base también cuenta con filtros similares.

Diversas Ofertas de LLM

El lanzamiento de los LLM de DeepSeek representa un avance significativo para China en el ámbito de la IA, ampliando la gama de tamaños de modelos disponibles para satisfacer diversas necesidades de los usuarios. Otras ofertas de IA chinas recientes incluyen Ernie 4.0 de Baidu, Yi 34B de 01.AI, y los modelos de Qwen que oscilan entre 1.8B y 72B.

Curiosamente, algunos modelos más pequeños han superado a sus contrapartes más grandes, como Yi 34B, que ha demostrado capacidades comparables a las de Llama-2-70B y Falcon-180B. Esta tendencia sugiere que las empresas pueden lograr eficiencias optando por modelos más pequeños sin comprometer la efectividad, conservando recursos computacionales mientras abordan diversos casos de uso.

La semana pasada, Microsoft ingresó a este espacio competitivo con los modelos Orca 2, que han demostrado un rendimiento superior en comparación con modelos cinco a diez veces más grandes, incluyendo Llama-2Chat-70B.

Diseñando la Capa de Datos Ideal para Gen AI: Claves y Perspectivas de Intuit

¿Los diseñadores gráficos están siendo reemplazados? COLE utiliza la inteligencia artificial para crear diseños editables al instante.

Most people like

Playground AI

399.3K

Desata tu creatividad con el creador de imágenes de IA en línea gratuito de Playground AI. Diseña arte impresionante, publicaciones atractivas, presentaciones profesionales, logotipos únicos y mucho más sin esfuerzo. Explora el poder de la IA y eleva tus proyectos hoy mismo.

generador de imágenes AI Art Generator

DreamGen

977.9K

Enciende tu creatividad con DreamGen.

Juego de roles de IA AI Story Writing

Dictanote

256.4K

Descubre Dictanote, una versátil aplicación de reconocimiento de voz diseñada para tomar notas de manera sencilla en varios idiomas. Esta herramienta innovadora convierte las palabras habladas en texto, lo que la convierte en una opción ideal para usuarios multilingües que buscan optimizar su proceso de toma de notas.

dictado por voz AI Speech Recognition

POKY

156.8K

Importa fácilmente productos de diversas plataformas directamente a tu tienda en línea. Optimiza la gestión de tu inventario y mejora tu experiencia de comercio electrónico hoy.

Importador de Productos E-commerce Assistant

Find AI tools in YBX