Zyphra bringt Zyda heraus: Ein 1,3 Terabyte umfassendes Sprachmodell-Dataset, das verspricht, Pile, C4 und arXiv zu übertreffen.

Home KI-Nachrichten Zyphra bringt Zyda heraus: Ein 1,3 Terabyte umfassendes Sprachmodell-Dataset, das verspricht, Pile, C4 und arXiv zu übertreffen.

Updated on Oktober 25 2024

Zyphra Technologies präsentiert Zyda: Ein bahnbrechender Datensatz für Sprachmodelle

Zyphra Technologies hat die Einführung von Zyda bekannt gegeben, einem umfangreichen Datensatz, der entwickelt wurde, um das Training von Sprachmodellen zu verbessern. Zyda umfasst 1,3 Billionen Tokens und ist eine sorgfältig gefilterte und deduplizierte Sammlung, die aus hochwertigen offenen Datensätzen stammen, darunter RefinedWeb, Starcoder, C4, Pile, Slimpajama, pe2so und arxiv. Erste Ablationsstudien zeigen, dass Zyda die Datensätze, aus denen es zusammengesetzt wurde, übertrifft. Eine frühe Version dieses Datensatzes treibt bereits das Zamba-Modell von Zyphra an, mit dem Plan, ihn auf Hugging Face zum Download anzubieten.

„Wir haben Zyda während der Entwicklung eines Pretraining-Datensatzes für unsere Zamba-Modellreihe erstellt“, erzählt Yury Tokpanov, Maschinenlern-Forscher und Produktleiter bei Zyphra. „Dieser Datensatz bietet eine außergewöhnlich hochwertige Ressource für das Training von Sprachmodellen und erspart anderen die Notwendigkeit, etwas Ähnliches wie Zyda von Grund auf neu zu erstellen.“

Zyphra hat sich zum Ziel gesetzt, bestehende Datensätze zu verbessern, indem verschiedene Open-Source-Sammlungen kombiniert werden. Die Tokens wurden gründlich gereinigt, um die Einzigartigkeit zu gewährleisten, und es wurden syntaktische Filter eingesetzt, um Dokumente von niedriger Qualität zu entfernen. Zudem wurde ein rigoroser Deduplikationsprozess sowohl innerhalb als auch zwischen den Datensätzen implementiert. Wie Zyphra in einem Blogbeitrag betont: „Cross-Deduplication ist entscheidend, da viele Datensätze überlappende Dokumente von gängigen Quellen wie Common Crawl enthalten.“

Unter den sieben verwendeten offenen Datensätzen für Sprachmodelle ist RefinedWeb der größte Anbieter und macht 43,6 % von Zyda aus. Weitere bedeutende Quellen sind Slimpajama (18,7 %) und StarCoder (17,8 %), während die verbleibenden Quellen kleinere Anteile ausmachen.

„Insgesamt haben wir etwa 40 % unseres ursprünglichen Datensatzes verworfen, wodurch die Token-Anzahl von geschätzten 2 Billionen auf 1,3 Billionen gesenkt wurde“, erklärt Tokpanov.

Als Open-Source-Projekt ermöglicht Zyda Entwicklern, diesen hochmodernen Datensatz für Sprachmodelle in verschiedenen Anwendungen zu nutzen – von verbesserten Wortvorhersagen und Textgenerierung bis hin zu optimierter Sprachübersetzung. Sollte Zyda die erwarteten Ergebnisse liefern, werden Entwickler in der Lage sein, ihre Prozesse zu rationalisieren und sowohl Produktionszeiten als auch Kosten zu senken.

Interessiert am Namen Zyda? Tokpanov verrät, dass es sich um eine Kombination aus „Zyphra Dataset“ handelt.

Zyda kann auf der Hugging Face-Seite von Zyphra heruntergeladen werden.

Tomato.ai präsentiert ein Zero-Shot Accent Softening-Modell zur Transformation der Callcenter-Branche.

Galileo's Luna revolutioniert die Bewertung von GenAI: 97% Kostenreduktion und 11-fache Geschwindigkeitssteigerung.

Most people like

Fable Fiesta - your AI co-author

40.2K

Fabel Fiesta: Der KI-gesteuerte Geschichtenerzeuger und Buchmacher, der deinen Erzählungen Leben einhaucht.

KI-Geschichten-Generator AI Story Writing

Vendasta

160.7K

Wir präsentieren eine KI-gesteuerte SaaS-Plattform, die entwickelt wurde, um den Verkauf Ihrer digitalen Produkte effektiv zu steigern und auszubauen.

KI-gestützt AI Advertising Assistant

Chromox

41K

Entdecken Sie die besten kostenlosen Alternativen zu OpenAI Sora für die Erstellung ansprechender KI-generierter Videos.

SORA AI Video Generator

Hirebee

33.2K

Transformation der Talentakquise: Eine neue Ära der RekrutierungsExzellenz.

Recruiting-Software AI Recruiting

Find AI tools in YBX