Zyphra Technologies präsentiert Zyda: Ein bahnbrechender Datensatz für Sprachmodelle
Zyphra Technologies hat die Einführung von Zyda bekannt gegeben, einem umfangreichen Datensatz, der entwickelt wurde, um das Training von Sprachmodellen zu verbessern. Zyda umfasst 1,3 Billionen Tokens und ist eine sorgfältig gefilterte und deduplizierte Sammlung, die aus hochwertigen offenen Datensätzen stammen, darunter RefinedWeb, Starcoder, C4, Pile, Slimpajama, pe2so und arxiv. Erste Ablationsstudien zeigen, dass Zyda die Datensätze, aus denen es zusammengesetzt wurde, übertrifft. Eine frühe Version dieses Datensatzes treibt bereits das Zamba-Modell von Zyphra an, mit dem Plan, ihn auf Hugging Face zum Download anzubieten.
„Wir haben Zyda während der Entwicklung eines Pretraining-Datensatzes für unsere Zamba-Modellreihe erstellt“, erzählt Yury Tokpanov, Maschinenlern-Forscher und Produktleiter bei Zyphra. „Dieser Datensatz bietet eine außergewöhnlich hochwertige Ressource für das Training von Sprachmodellen und erspart anderen die Notwendigkeit, etwas Ähnliches wie Zyda von Grund auf neu zu erstellen.“
Zyphra hat sich zum Ziel gesetzt, bestehende Datensätze zu verbessern, indem verschiedene Open-Source-Sammlungen kombiniert werden. Die Tokens wurden gründlich gereinigt, um die Einzigartigkeit zu gewährleisten, und es wurden syntaktische Filter eingesetzt, um Dokumente von niedriger Qualität zu entfernen. Zudem wurde ein rigoroser Deduplikationsprozess sowohl innerhalb als auch zwischen den Datensätzen implementiert. Wie Zyphra in einem Blogbeitrag betont: „Cross-Deduplication ist entscheidend, da viele Datensätze überlappende Dokumente von gängigen Quellen wie Common Crawl enthalten.“
Unter den sieben verwendeten offenen Datensätzen für Sprachmodelle ist RefinedWeb der größte Anbieter und macht 43,6 % von Zyda aus. Weitere bedeutende Quellen sind Slimpajama (18,7 %) und StarCoder (17,8 %), während die verbleibenden Quellen kleinere Anteile ausmachen.
„Insgesamt haben wir etwa 40 % unseres ursprünglichen Datensatzes verworfen, wodurch die Token-Anzahl von geschätzten 2 Billionen auf 1,3 Billionen gesenkt wurde“, erklärt Tokpanov.
Als Open-Source-Projekt ermöglicht Zyda Entwicklern, diesen hochmodernen Datensatz für Sprachmodelle in verschiedenen Anwendungen zu nutzen – von verbesserten Wortvorhersagen und Textgenerierung bis hin zu optimierter Sprachübersetzung. Sollte Zyda die erwarteten Ergebnisse liefern, werden Entwickler in der Lage sein, ihre Prozesse zu rationalisieren und sowohl Produktionszeiten als auch Kosten zu senken.
Interessiert am Namen Zyda? Tokpanov verrät, dass es sich um eine Kombination aus „Zyphra Dataset“ handelt.
Zyda kann auf der Hugging Face-Seite von Zyphra heruntergeladen werden.