Zyphra Lanza Zyda: un Conjunto de Datos de Modelado de Lenguaje de 1.3T que Asegura Superar a Pile, C4 y arXiv

Zyphra Technologies Presenta Zyda: Un Conjunto de Datos Revolucionario para Modelos de Lenguaje

Zyphra Technologies ha lanzado Zyda, un conjunto de datos amplio diseñado para mejorar el entrenamiento de modelos de lenguaje. Consta de 1.3 billones de tokens, Zyda es una colección meticulosamente filtrada y deduplicada, proveniente de conjuntos de datos abiertos de alta calidad, como RefinedWeb, Starcoder, C4, Pile, Slimpajama, pe2so y arxiv. Estudios iniciales indican que Zyda supera a los conjuntos de datos de los cuales fue creado. Una versión preliminar de este conjunto ya está potenciado el modelo Zamba de Zyphra, y se espera que esté disponible para su descarga en Hugging Face.

“Creamos Zyda mientras desarrollábamos un conjunto de datos de preentrenamiento para nuestra serie de modelos Zamba”, comparte Yury Tokpanov, ingeniero de investigación en aprendizaje automático y líder de producto en Zyphra. Este conjunto de datos ofrece un recurso de calidad excepcional para entrenar modelos de lenguaje, eliminando la necesidad de que otros recreen algo similar desde cero.

Zyphra se propuso mejorar los conjuntos de datos existentes combinando diversas colecciones de código abierto. Limpiar meticulosamente los tokens para garantizar su unicidad, emplear filtrado sintáctico para eliminar documentos de baja calidad e implementar un riguroso proceso de deduplicación tanto dentro como entre conjuntos de datos, fueron pasos clave. Como señala Zyphra en una entrada de blog, “La deduplicación cruzada es crucial, ya que muchos conjuntos de datos contienen documentos superpuestos de fuentes comunes como Common Crawl.”

De los siete conjuntos de datos abiertos utilizados, RefinedWeb es el mayor contribuyente, representando el 43.6% de Zyda. Otras fuentes significativas incluyen Slimpajama (18.7%) y StarCoder (17.8%), mientras que el resto corresponde a porcentajes menores.

“En total, descartamos aproximadamente el 40% de nuestro conjunto de datos inicial, reduciendo su conteo de tokens de un estimado de 2 billones a 1.3 billones”, explica Tokpanov.

Al ser de código abierto, Zyda permite a los desarrolladores aprovechar este conjunto de datos vanguardista para diversas aplicaciones, que van desde predicciones más precisas de palabras y generación de texto hasta traducción de idiomas mejorada. Si Zyda cumple con las expectativas, permitirá a los desarrolladores optimizar sus procesos, reduciendo el tiempo y los costos de producción.

¿Te preguntas por qué se llama Zyda? Tokpanov revela que es una combinación de “Zyphra Dataset”.

Puedes descargar Zyda en la página de Hugging Face de Zyphra.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles