ZyphraがZydaを発表:1.3Tの言語モデルデータセットがPile、C4、arXivを超える主張

Zyphra Technologiesが画期的な言語モデルデータセット「Zyda」を発表

Zyphra Technologiesは、言語モデルのトレーニングを強化するために設計された広範なデータセット「Zyda」を発表しました。このデータセットは、1.3兆トークンを含み、RefinedWeb、Starcoder、C4、Pile、Slimpajama、pe2so、arxivなどの高品質なオープンデータセットから厳選・重複排除されたコレクションです。初期のアブレーションスタディでは、Zydaが元にしたデータセットを上回る性能を示しています。Zydaの初期バージョンはすでにZyphraのZambaモデルを動かしており、今後Hugging Faceでのダウンロードが可能になる予定です。

「Zydaは、私たちのZambaSiriーズのモデルのプリトレーニングデータセットを開発する過程で作成しました」とZyphraの機械学習リサーチエンジニア兼プロダクトリードのユリ・トクパノフ氏は語ります。「このデータセットは、言語モデルのトレーニングに極めて高品質なリソースを提供し、他者がゼロからZydaのようなものを作り直す必要を排除します。」

Zyphraは、さまざまなオープンソースコレクションを組み合わせることで既存のデータセットを改善することを目指しました。トークンのユニーク性を確保するために徹底的にクリーンアップを行い、低品質なドキュメントを排除するために構文フィルタリングを適用しました。また、データセット間および内部の厳格な重複排除プロセスを実施しました。Zyphraのブログ投稿によれば、「クロス重複排除は重要です。多くのデータセットにはCommon Crawlなどの共通ソースからの重複するドキュメントが含まれているためです。」

使用された七つのオープン言語モデリングデータセットの中で、RefinedWebが最大の貢献をし、Zydaの43.6%を占めています。他の重要なソースにはSlimpajama(18.7%)とStarCoder(17.8%)が含まれ、残りは小さな割合を占めています。

「私たちは元のデータセットの約40%を破棄し、そのトークン数を推定2兆から1.3兆に減少させました」とトクパノフ氏は説明します。

オープンソースで提供されるZydaは、開発者がその最先端の言語モデリングデータセットを利用して、ワード予測やテキスト生成、言語翻訳の向上など、さまざまなアプリケーションに活用できるようにします。Zydaが期待通りの性能を発揮すれば、開発者はプロセスを効率化し、制作時間とコストを削減できるでしょう。

Zydaという名前の由来が気になりますか?トクパノフ氏によれば、「Zyphra Dataset」の略語だそうです。

ZydaはZyphraのHugging Faceページからダウンロード可能です。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles