Zyphra lance Zyda : un ensemble de données de modélisation linguistique de 1,3 To qui prétend surpasser Pile, C4 et arXiv.

Zyphra Technologies Lève le Voile sur Zyda : Un Ensemble de Données Innovant pour les Modèles Linguistiques

Zyphra Technologies annonce le lancement de Zyda, un vaste ensemble de données conçu pour améliorer l'entraînement des modèles linguistiques. Composée de 1,3 trillion de tokens, Zyda est une collection soigneusement filtrée et dédupliquée, dérivée de jeux de données open source de premier plan tels que RefinedWeb, Starcoder, C4, Pile, Slimpajama, pe2so et arxiv. Des études préliminaires montrent que Zyda surpasse les ensembles de données dont elle est issue. Une version précoce de cet ensemble alimente déjà le modèle Zamba de Zyphra, avec des projets de le rendre disponible en téléchargement sur Hugging Face.

« Nous avons créé Zyda en développant un ensemble de données de préentraînement pour notre série de modèles Zamba, » déclare Yury Tokpanov, ingénieur en recherche sur l'apprentissage automatique et chef de produit chez Zyphra. Cet ensemble de données constitue une ressource de qualité exceptionnelle pour l'entraînement des modèles linguistiques, éliminant ainsi le besoin de recréer quelque chose de similaire à Zyda. »

Zyphra vise à améliorer les ensembles de données existants en combinant diverses collections open source. Les tokens ont été minutieusement nettoyés pour garantir leur unicité, avec un filtrage syntaxique pour éliminer les documents de mauvaise qualité et un processus de déduplication rigoureux tant à l'intérieur qu'à l'extérieur des ensembles. Comme le souligne Zyphra dans un article de blog, « la déduplication croisée est essentielle, car de nombreux ensembles contiennent des documents en double provenant de sources communes telles que Common Crawl. »

Parmi les sept ensembles de données open source utilisés, RefinedWeb est le plus grand contributeur, représentant 43,6 % de Zyda. D'autres sources significatives incluent Slimpajama (18,7 %) et StarCoder (17,8 %), tandis que le reste se divise en pourcentages plus petits.

« Au total, nous avons écarté environ 40 % de notre ensemble de données initial, réduisant le nombre de tokens d'environ 2 trillions à 1,3 trillion, » explique Tokpanov.

Étant open source, Zyda permet aux développeurs d'exploiter cet ensemble de données de modélisation linguistique à la pointe pour diverses applications, allant de la prédiction de mots améliorée à la génération de texte et à la traduction linguistique avancée. Si Zyda fonctionne comme prévu, cela permettra aux développeurs de rationaliser leurs processus, réduisant ainsi le temps et les coûts de production.

Vous vous demandez d'où vient le nom Zyda ? Tokpanov révèle qu'il s'agit d'un mélange de « Zyphra Dataset ».

Téléchargez Zyda sur la page Hugging Face de Zyphra.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles