Zyphra Lanza Zyda: un Conjunto de Datos de Modelado de Lenguaje de 1.3T que Asegura Superar a Pile, C4 y arXiv

Home Noticias de IA Zyphra Lanza Zyda: un Conjunto de Datos de Modelado de Lenguaje de 1.3T que Asegura Superar a Pile, C4 y arXiv

Updated on octubre 25 2024

Zyphra Technologies Presenta Zyda: Un Conjunto de Datos Revolucionario para Modelos de Lenguaje

Zyphra Technologies ha lanzado Zyda, un conjunto de datos amplio diseñado para mejorar el entrenamiento de modelos de lenguaje. Consta de 1.3 billones de tokens, Zyda es una colección meticulosamente filtrada y deduplicada, proveniente de conjuntos de datos abiertos de alta calidad, como RefinedWeb, Starcoder, C4, Pile, Slimpajama, pe2so y arxiv. Estudios iniciales indican que Zyda supera a los conjuntos de datos de los cuales fue creado. Una versión preliminar de este conjunto ya está potenciado el modelo Zamba de Zyphra, y se espera que esté disponible para su descarga en Hugging Face.

“Creamos Zyda mientras desarrollábamos un conjunto de datos de preentrenamiento para nuestra serie de modelos Zamba”, comparte Yury Tokpanov, ingeniero de investigación en aprendizaje automático y líder de producto en Zyphra. Este conjunto de datos ofrece un recurso de calidad excepcional para entrenar modelos de lenguaje, eliminando la necesidad de que otros recreen algo similar desde cero.

Zyphra se propuso mejorar los conjuntos de datos existentes combinando diversas colecciones de código abierto. Limpiar meticulosamente los tokens para garantizar su unicidad, emplear filtrado sintáctico para eliminar documentos de baja calidad e implementar un riguroso proceso de deduplicación tanto dentro como entre conjuntos de datos, fueron pasos clave. Como señala Zyphra en una entrada de blog, “La deduplicación cruzada es crucial, ya que muchos conjuntos de datos contienen documentos superpuestos de fuentes comunes como Common Crawl.”

De los siete conjuntos de datos abiertos utilizados, RefinedWeb es el mayor contribuyente, representando el 43.6% de Zyda. Otras fuentes significativas incluyen Slimpajama (18.7%) y StarCoder (17.8%), mientras que el resto corresponde a porcentajes menores.

“En total, descartamos aproximadamente el 40% de nuestro conjunto de datos inicial, reduciendo su conteo de tokens de un estimado de 2 billones a 1.3 billones”, explica Tokpanov.

Al ser de código abierto, Zyda permite a los desarrolladores aprovechar este conjunto de datos vanguardista para diversas aplicaciones, que van desde predicciones más precisas de palabras y generación de texto hasta traducción de idiomas mejorada. Si Zyda cumple con las expectativas, permitirá a los desarrolladores optimizar sus procesos, reduciendo el tiempo y los costos de producción.

¿Te preguntas por qué se llama Zyda? Tokpanov revela que es una combinación de “Zyphra Dataset”.

Puedes descargar Zyda en la página de Hugging Face de Zyphra.

Tomato.ai Presenta un Modelo de Suavización de Acento Zero-Shot para Transformar la Industria de los Centros de Llamadas

La Revolución de la Evaluación GenAI de Galileo: Reducción del 97% en Costos y Mejora de Velocidad de 11 Veces

Most people like

Objective, Inc

11.2K

Presentamos nuestra API de Búsqueda nativa de IA, diseñada específicamente para aplicaciones web y móviles. Mejora la experiencia de tus usuarios con funcionalidades de búsqueda de vanguardia que aprovechan la inteligencia artificial para ofrecer resultados altamente relevantes. Nuestra API optimiza la eficiencia de búsqueda, garantizando una integración fluida y un mayor compromiso en tus aplicaciones. ¡Desbloquea el poder de las capacidades de búsqueda inteligente hoy mismo!

nativo de IA AI Search Engine

Tactiq

3.2M

Tactiq es una herramienta de transcripción excepcional diseñada específicamente para reuniones en línea, que ofrece transcripción en tiempo real y resúmenes concisos de las reuniones. Aumenta tu productividad y mejora la colaboración con Tactiq, la solución ideal para capturar y organizar tus discusiones virtuales de manera efectiva.

transcripción en vivo AI Meeting Assistant

LowTech AI

51.6K

Descubre una plataforma de IA intuitiva diseñada específicamente para usuarios sin conocimientos técnicos, con potentes sugerencias adaptadas para profesionales.

Herramientas de IA AI Tools Directory

CodeRabbit

442.6K

CodeRabbit es una herramienta innovadora de inteligencia artificial diseñada para acelerar las revisiones de código al proporcionar valiosos conocimientos impulsados por IA.

Impulsado por IA AI Code Assistant

Find AI tools in YBX