Zyphra推出Zyda：一個1.3T的語言建模數據集，自稱超越了Pile、C4和arXiv。

Home AI新聞 Zyphra推出Zyda：一個1.3T的語言建模數據集，自稱超越了Pile、C4和arXiv。

Zyphra Technologies 推出 Zyda：突破性的語言模型數據集

Zyphra Technologies 已宣布推出 Zyda，這是一個龐大的數據集，旨在提升語言模型的訓練效果。Zyda 擁有 1.3 兆個標記，經過精心篩選和去重，來源於多個優質開放數據集，包括 RefinedWeb、Starcoder、C4、Pile、Slimpajama、pe2so 和 arxiv。初步的消融研究顯示，Zyda 的性能優於其構建所依賴的數據集。Zyda 的早期版本已經在 Zyphra 的 Zamba 模型中使用，並計劃在 Hugging Face 上提供下載。

Zyphra 的機器學習研究工程師兼產品負責人 Yury Tokpanov 表示：“我們在為 Zamba 系列模型開發預訓練數據集時創建了 Zyda，這個數據集為語言模型訓練提供了極高質量的資源，免去了他人從零開始重建 Zyda 的需求。”

Zyphra 的目標是通過整合各種開源數據集來改進現有數據集。他們仔細清理標記以確保獨特性，採用語法篩選技術消除低質量文檔，並在數據集之間實施嚴格的去重過程。正如 Zyphra 在博客中所提到的，“跨數據集去重至關重要，因為許多數據集來自於如 Common Crawl 等常見來源，包含重複文檔。”

七個用於語言建模的開放數據集中，RefinedWeb 是最大的貢獻者，占 Zyda 的 43.6%。其他主要來源包括 Slimpajama（18.7%）和 StarCoder（17.8%），其餘部分則佔較小比例。

Tokpanov 解釋：“我們總共刪除了約 40% 的初始數據集，將標記總數從約 2 兆減少到 1.3 兆。”

作為開源數據集，Zyda 使開發者能夠利用這一最先進的語言建模數據集，應用於增強的詞語預測、文本生成及改進語言翻譯等各種應用。如果 Zyda 能如預期一般表現，將幫助開發者簡化流程，縮短生產時間和成本。

對於 Zyda 的名稱，Tokpanov 揭示它是 “Zyphra Dataset” 的組合。

您可以在 Zyphra 的 Hugging Face 頁面下載 Zyda。

Tomato.ai 推出零-shot 口音柔化模型以徹底改變呼叫中心行業

伽利略的 Luna 革新了生成 AI 評估：成本降低 97%，速度提升 11 倍

Most people like

GitMind Chat

1.5M

在當今快速變化的數位世界中，人工智慧助手可以顯著提升生產力並簡化日常生活。無論您需要協助管理行程、尋找資訊，還是提高創造力，理想的人工智慧助手隨時在您指尖，準備以多種方式支持您。探索這項創新技術如何改變您的工作、生活以及與他人的聯繫方式。讓我們一起了解您終極人工智慧助手的好處和功能！

AI 助手 AI Chatbot

Book By Anyone

147.5K

以閃電般的速度創作諷刺書籍，無論是誰都能做到。

諷刺書籍 AI Book Writing

Vidnoz AI Headshot Generator

10.3M

輕鬆打造令人驚艷的專業 AI 脫稿照。

AI 頭像生成器 AI Avatar Generator

Followr - AI Social Media Management Platform

36.8K

Followr 是一個創新的 AI 平台，旨在簡化社交媒體管理，幫助用戶節省寶貴時間並提升其在線存在感。

人工智慧驅動 AI Advertising Assistant

Find AI tools in YBX