ZyphraがZydaを発表：1.3Tの言語モデルデータセットがPile、C4、arXivを超える主張

Home AIニュース ZyphraがZydaを発表：1.3Tの言語モデルデータセットがPile、C4、arXivを超える主張

Zyphra Technologiesが画期的な言語モデルデータセット「Zyda」を発表

Zyphra Technologiesは、言語モデルのトレーニングを強化するために設計された広範なデータセット「Zyda」を発表しました。このデータセットは、1.3兆トークンを含み、RefinedWeb、Starcoder、C4、Pile、Slimpajama、pe2so、arxivなどの高品質なオープンデータセットから厳選・重複排除されたコレクションです。初期のアブレーションスタディでは、Zydaが元にしたデータセットを上回る性能を示しています。Zydaの初期バージョンはすでにZyphraのZambaモデルを動かしており、今後Hugging Faceでのダウンロードが可能になる予定です。

「Zydaは、私たちのZambaSiriーズのモデルのプリトレーニングデータセットを開発する過程で作成しました」とZyphraの機械学習リサーチエンジニア兼プロダクトリードのユリ・トクパノフ氏は語ります。「このデータセットは、言語モデルのトレーニングに極めて高品質なリソースを提供し、他者がゼロからZydaのようなものを作り直す必要を排除します。」

Zyphraは、さまざまなオープンソースコレクションを組み合わせることで既存のデータセットを改善することを目指しました。トークンのユニーク性を確保するために徹底的にクリーンアップを行い、低品質なドキュメントを排除するために構文フィルタリングを適用しました。また、データセット間および内部の厳格な重複排除プロセスを実施しました。Zyphraのブログ投稿によれば、「クロス重複排除は重要です。多くのデータセットにはCommon Crawlなどの共通ソースからの重複するドキュメントが含まれているためです。」

使用された七つのオープン言語モデリングデータセットの中で、RefinedWebが最大の貢献をし、Zydaの43.6%を占めています。他の重要なソースにはSlimpajama（18.7%）とStarCoder（17.8%）が含まれ、残りは小さな割合を占めています。

「私たちは元のデータセットの約40%を破棄し、そのトークン数を推定2兆から1.3兆に減少させました」とトクパノフ氏は説明します。

オープンソースで提供されるZydaは、開発者がその最先端の言語モデリングデータセットを利用して、ワード予測やテキスト生成、言語翻訳の向上など、さまざまなアプリケーションに活用できるようにします。Zydaが期待通りの性能を発揮すれば、開発者はプロセスを効率化し、制作時間とコストを削減できるでしょう。

Zydaという名前の由来が気になりますか？トクパノフ氏によれば、「Zyphra Dataset」の略語だそうです。

ZydaはZyphraのHugging Faceページからダウンロード可能です。

隠れたジェネレーティブAI革命：AI PCとエッジコンピューティングの変革

ガリレオのルナがGenAI評価を革新：97％のコスト削減と11倍のスピード向上

Most people like

AI Girlfriend WTF

296K

AI彼女とのインタラクティブなストーリーテリングを体験し、魅力的な物語に没入し、意味のある会話を楽しんでください。これらのバーチャル仲間を通じて、つながりと創造性の無限の可能性を探求し、あなたの想像力を形にしましょう。

AIガールフレンド AI Girlfriend

HiJiffy Guest Communications Hub

73.5K

AIを活用したコミュニケーションプラットフォームで、ホテルのゲスト体験を変革しましょう。ホスピタリティ業界専用に設計された当社のソリューションは、やり取りを効率化し、ゲスト満足度を向上させ、業務の効率を最適化します。先進的なAI技術を導入することで、ホテルのサービス基準を向上させ、ゲストとの長期的な関係を築く方法を見つけてください。

AI駆動のゲストコミュニケーション AI Chatbot

Snappy

149.3K

愛する人々に、永遠に大切にされるユニークでパーソナライズされたギフトを贈りましょう！

スナッピー AI Gift Ideas

Diagramming AI

91K

最先端のAI技術を活用したダイアグラム作成AIプラットフォームを使って、UMLやワークフロー設計を簡単にシンプルにしましょう。

その他 AI Project Management

Find AI tools in YBX