Zyphra推出Zyda:1.3T语言模型数据集,宣称超越Pile、C4和arXiv

Zyphra科技发布Zyda:革命性的语言模型数据集

Zyphra科技近日宣布推出Zyda,这是一款旨在提升语言模型训练的大型数据集。Zyda包含1.3万亿个标记,经过精心过滤和去重,源自多个优质开源数据集,包括RefinedWeb、Starcoder、C4、Pile、Slimpajama、pe2so和arxiv。初步的消融研究表明,Zyda的表现超越了构建其所基于的数据集。目前,Zyda的早期版本已在Zyphra的Zamba模型中使用,未来也将在Hugging Face上提供下载。

“在为我们的Zamba系列模型开发预训练数据集时,我们创建了Zyda。”Zyphra的机器学习研究工程师兼产品负责人Yury Tokpanov表示,Zyda提供了一种高质量的资源,帮助训练语言模型,从而免去了其他开发者从零开始重建类似Zyda的需要。

Zyphra的目标是通过结合多种开源数据集来改善现有数据集。他们对标记进行了细致的清理,以确保其独特性,使用语法过滤技术剔除低质量文档,并在数据集内外执行严格的去重过程。正如Zyphra在一篇博客中所指出的,“交叉去重至关重要,因为很多数据集都来自于像Common Crawl这样的公共源,包含重叠的文档。”

在使用的七个开源语言建模数据集中,RefinedWeb贡献最大,占Zyda的43.6%。其他主要来源包括Slimpajama(18.7%)和StarCoder(17.8%),其余部分占较小比例。

“总的来说,我们丢弃了大约40%的初始数据集,将标记数从约2万亿减少到1.3万亿,”Tokpanov解释道。

作为一个开源项目,Zyda使开发者能够利用这一先进的语言建模数据集用于多种应用,包括增强的文字预测、文本生成和语言翻译。如果Zyda如预期那样表现出色,它将帮助开发者简化工作流程,降低生产时间和成本。

好奇Zyda这个名字的由来吗?Tokpanov透露,它是“Zyphra Dataset”的结合。

您可以在Zyphra的Hugging Face页面下载Zyda。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles