Zyphra推出Zyda：一個1.3T的語言建模數據集，自稱超越了Pile、C4和arXiv。

Home AI新聞 Zyphra推出Zyda：一個1.3T的語言建模數據集，自稱超越了Pile、C4和arXiv。

Zyphra Technologies 推出 Zyda：突破性的語言模型數據集

Zyphra Technologies 已宣布推出 Zyda，這是一個龐大的數據集，旨在提升語言模型的訓練效果。Zyda 擁有 1.3 兆個標記，經過精心篩選和去重，來源於多個優質開放數據集，包括 RefinedWeb、Starcoder、C4、Pile、Slimpajama、pe2so 和 arxiv。初步的消融研究顯示，Zyda 的性能優於其構建所依賴的數據集。Zyda 的早期版本已經在 Zyphra 的 Zamba 模型中使用，並計劃在 Hugging Face 上提供下載。

Zyphra 的機器學習研究工程師兼產品負責人 Yury Tokpanov 表示：“我們在為 Zamba 系列模型開發預訓練數據集時創建了 Zyda，這個數據集為語言模型訓練提供了極高質量的資源，免去了他人從零開始重建 Zyda 的需求。”

Zyphra 的目標是通過整合各種開源數據集來改進現有數據集。他們仔細清理標記以確保獨特性，採用語法篩選技術消除低質量文檔，並在數據集之間實施嚴格的去重過程。正如 Zyphra 在博客中所提到的，“跨數據集去重至關重要，因為許多數據集來自於如 Common Crawl 等常見來源，包含重複文檔。”

七個用於語言建模的開放數據集中，RefinedWeb 是最大的貢獻者，占 Zyda 的 43.6%。其他主要來源包括 Slimpajama（18.7%）和 StarCoder（17.8%），其餘部分則佔較小比例。

Tokpanov 解釋：“我們總共刪除了約 40% 的初始數據集，將標記總數從約 2 兆減少到 1.3 兆。”

作為開源數據集，Zyda 使開發者能夠利用這一最先進的語言建模數據集，應用於增強的詞語預測、文本生成及改進語言翻譯等各種應用。如果 Zyda 能如預期一般表現，將幫助開發者簡化流程，縮短生產時間和成本。

對於 Zyda 的名稱，Tokpanov 揭示它是 “Zyphra Dataset” 的組合。

您可以在 Zyphra 的 Hugging Face 頁面下載 Zyda。

Tomato.ai 推出零-shot 口音柔化模型以徹底改變呼叫中心行業

伽利略的 Luna 革新了生成 AI 評估：成本降低 97%，速度提升 11 倍

Most people like

Behnevis

73.8K

為波斯語實現精確的音譯和有效的語音轉文本轉換對於提升溝通和可及性至關重要。通過準確地將口語波斯語轉化為書面文本，我們能夠縮小語言差距，促進理解，並促進文化交流。本指南探討了準確波斯語音譯和語音識別所需的基本工具和技巧，確保波斯語使用者和學習者之間的無縫互動。

波斯語音譯 Other

Vitra AI

輕鬆將您的創意內容翻譯成超過75種語言。

創意翻譯 Translate

Glyph

15.8K

體驗我們專為快速轉錄和提供可行見解而設計的人工智慧工具。這一創新解決方案非常適合追求效率的專業人士，簡化了轉錄過程，使您能專注於真正重要的事物。快速而輕鬆地將您的音頻和視頻內容轉換為可靠的文本，同時釋放出寶貴的見解，以支持明智的決策。今天就來發現我們的人工智慧工具如何徹底改變您處理轉錄的方式！

AI 轉錄 Transcriber

Komiko : AI Comics, AI Characters & AI Anime

8.4K

當然！請提供您希望我精煉的介紹內容。

AI 漫畫 AI Manga & Comic

Find AI tools in YBX