Zyphra推出Zyda：1.3T语言模型数据集，宣称超越Pile、C4和arXiv

Home AI News CN Zyphra推出Zyda：1.3T语言模型数据集，宣称超越Pile、C4和arXiv

Zyphra科技发布Zyda：革命性的语言模型数据集

Zyphra科技近日宣布推出Zyda，这是一款旨在提升语言模型训练的大型数据集。Zyda包含1.3万亿个标记，经过精心过滤和去重，源自多个优质开源数据集，包括RefinedWeb、Starcoder、C4、Pile、Slimpajama、pe2so和arxiv。初步的消融研究表明，Zyda的表现超越了构建其所基于的数据集。目前，Zyda的早期版本已在Zyphra的Zamba模型中使用，未来也将在Hugging Face上提供下载。

“在为我们的Zamba系列模型开发预训练数据集时，我们创建了Zyda。”Zyphra的机器学习研究工程师兼产品负责人Yury Tokpanov表示，Zyda提供了一种高质量的资源，帮助训练语言模型，从而免去了其他开发者从零开始重建类似Zyda的需要。

Zyphra的目标是通过结合多种开源数据集来改善现有数据集。他们对标记进行了细致的清理，以确保其独特性，使用语法过滤技术剔除低质量文档，并在数据集内外执行严格的去重过程。正如Zyphra在一篇博客中所指出的，“交叉去重至关重要，因为很多数据集都来自于像Common Crawl这样的公共源，包含重叠的文档。”

在使用的七个开源语言建模数据集中，RefinedWeb贡献最大，占Zyda的43.6%。其他主要来源包括Slimpajama（18.7%）和StarCoder（17.8%），其余部分占较小比例。

“总的来说，我们丢弃了大约40%的初始数据集，将标记数从约2万亿减少到1.3万亿，”Tokpanov解释道。

作为一个开源项目，Zyda使开发者能够利用这一先进的语言建模数据集用于多种应用，包括增强的文字预测、文本生成和语言翻译。如果Zyda如预期那样表现出色，它将帮助开发者简化工作流程，降低生产时间和成本。

好奇Zyda这个名字的由来吗？Tokpanov透露，它是“Zyphra Dataset”的结合。

您可以在Zyphra的Hugging Face页面下载Zyda。

Tomato.ai推出零-shot口音软化模型，革新呼叫中心行业

Galileo的Luna革新GenAI评估：成本减少97%，速度提升11倍