Zyphra lance Zyda : un ensemble de données de modélisation linguistique de 1,3 To qui prétend surpasser Pile, C4 et arXiv.

Home Actualités IA Zyphra lance Zyda : un ensemble de données de modélisation linguistique de 1,3 To qui prétend surpasser Pile, C4 et arXiv.

Updated on octobre 25 2024

Zyphra Technologies Lève le Voile sur Zyda : Un Ensemble de Données Innovant pour les Modèles Linguistiques

Zyphra Technologies annonce le lancement de Zyda, un vaste ensemble de données conçu pour améliorer l'entraînement des modèles linguistiques. Composée de 1,3 trillion de tokens, Zyda est une collection soigneusement filtrée et dédupliquée, dérivée de jeux de données open source de premier plan tels que RefinedWeb, Starcoder, C4, Pile, Slimpajama, pe2so et arxiv. Des études préliminaires montrent que Zyda surpasse les ensembles de données dont elle est issue. Une version précoce de cet ensemble alimente déjà le modèle Zamba de Zyphra, avec des projets de le rendre disponible en téléchargement sur Hugging Face.

« Nous avons créé Zyda en développant un ensemble de données de préentraînement pour notre série de modèles Zamba, » déclare Yury Tokpanov, ingénieur en recherche sur l'apprentissage automatique et chef de produit chez Zyphra. Cet ensemble de données constitue une ressource de qualité exceptionnelle pour l'entraînement des modèles linguistiques, éliminant ainsi le besoin de recréer quelque chose de similaire à Zyda. »

Zyphra vise à améliorer les ensembles de données existants en combinant diverses collections open source. Les tokens ont été minutieusement nettoyés pour garantir leur unicité, avec un filtrage syntaxique pour éliminer les documents de mauvaise qualité et un processus de déduplication rigoureux tant à l'intérieur qu'à l'extérieur des ensembles. Comme le souligne Zyphra dans un article de blog, « la déduplication croisée est essentielle, car de nombreux ensembles contiennent des documents en double provenant de sources communes telles que Common Crawl. »

Parmi les sept ensembles de données open source utilisés, RefinedWeb est le plus grand contributeur, représentant 43,6 % de Zyda. D'autres sources significatives incluent Slimpajama (18,7 %) et StarCoder (17,8 %), tandis que le reste se divise en pourcentages plus petits.

« Au total, nous avons écarté environ 40 % de notre ensemble de données initial, réduisant le nombre de tokens d'environ 2 trillions à 1,3 trillion, » explique Tokpanov.

Étant open source, Zyda permet aux développeurs d'exploiter cet ensemble de données de modélisation linguistique à la pointe pour diverses applications, allant de la prédiction de mots améliorée à la génération de texte et à la traduction linguistique avancée. Si Zyda fonctionne comme prévu, cela permettra aux développeurs de rationaliser leurs processus, réduisant ainsi le temps et les coûts de production.

Vous vous demandez d'où vient le nom Zyda ? Tokpanov révèle qu'il s'agit d'un mélange de « Zyphra Dataset ».

Téléchargez Zyda sur la page Hugging Face de Zyphra.

Tomato.ai dévoile un modèle d'adoucissement d'accent sans apprentissage pour révolutionner l'industrie des centres d'appels.

La Révolution Luna de Galileo transforme l'évaluation de l'IA générative : réduction des coûts de 97 % et amélioration de la vitesse par un facteur de 11.

Most people like

ContentDetector.AI

381.5K

Découvrez la puissance d'un détecteur de contenu AI gratuit, d'un vérificateur de plagiat ChatGPT précis, et d'un compteur de mots efficace, tous conçus pour améliorer votre expérience d'écriture. Optimisez votre contenu et garantissez son originalité sans effort !

détecteur de contenu IA AI Content Detector

Anthropic

70.4M

Présentation de Claude, un assistant IA avancé développé par Anthropic, conçu pour offrir une vaste gamme de capacités et de services afin d'améliorer votre expérience.

assistant IA AI Chatbot

Vidu Studio

153K

Transformez vos invites textuelles en vidéos époustouflantes grâce à un générateur de vidéos AI ! Créez un contenu visuel impressionnant sans effort, en exploitant la puissance de l'intelligence artificielle pour donner vie à vos idées.

Génération de vidéos par IA Text to Video

AICUT

62.7K

Êtes-vous prêt à améliorer votre processus de création de contenu ? Notre outil d'IA innovant permet aux utilisateurs de créer facilement des vidéos courtes captivantes sans visages. Que vous soyez un marketeur, un éducateur ou un passionné des réseaux sociaux, cette plateforme conviviale simplifie l'expérience de réalisation vidéo. Plongez dans un monde de narration sans limites et renforcez votre présence en ligne dès aujourd'hui !

Outil de création vidéo par IA Text to Video

Find AI tools in YBX