Zyphra Technologies 推出 Zyda:突破性的語言模型數據集
Zyphra Technologies 已宣布推出 Zyda,這是一個龐大的數據集,旨在提升語言模型的訓練效果。Zyda 擁有 1.3 兆個標記,經過精心篩選和去重,來源於多個優質開放數據集,包括 RefinedWeb、Starcoder、C4、Pile、Slimpajama、pe2so 和 arxiv。初步的消融研究顯示,Zyda 的性能優於其構建所依賴的數據集。Zyda 的早期版本已經在 Zyphra 的 Zamba 模型中使用,並計劃在 Hugging Face 上提供下載。
Zyphra 的機器學習研究工程師兼產品負責人 Yury Tokpanov 表示:“我們在為 Zamba 系列模型開發預訓練數據集時創建了 Zyda,這個數據集為語言模型訓練提供了極高質量的資源,免去了他人從零開始重建 Zyda 的需求。”
Zyphra 的目標是通過整合各種開源數據集來改進現有數據集。他們仔細清理標記以確保獨特性,採用語法篩選技術消除低質量文檔,並在數據集之間實施嚴格的去重過程。正如 Zyphra 在博客中所提到的,“跨數據集去重至關重要,因為許多數據集來自於如 Common Crawl 等常見來源,包含重複文檔。”
七個用於語言建模的開放數據集中,RefinedWeb 是最大的貢獻者,占 Zyda 的 43.6%。其他主要來源包括 Slimpajama(18.7%)和 StarCoder(17.8%),其餘部分則佔較小比例。
Tokpanov 解釋:“我們總共刪除了約 40% 的初始數據集,將標記總數從約 2 兆減少到 1.3 兆。”
作為開源數據集,Zyda 使開發者能夠利用這一最先進的語言建模數據集,應用於增強的詞語預測、文本生成及改進語言翻譯等各種應用。如果 Zyda 能如預期一般表現,將幫助開發者簡化流程,縮短生產時間和成本。
對於 Zyda 的名稱,Tokpanov 揭示它是 “Zyphra Dataset” 的組合。
您可以在 Zyphra 的 Hugging Face 頁面下載 Zyda。