Zyphra Technologies представляет Zyda: революционный набор данных для языкового моделирования
Zyphra Technologies объявила о запуске Zyda — обширного набора данных, разработанного для повышения качества обучения языковых моделей. Включая 1.3 триллиона токенов, Zyda представляет собой тщательно отфильтрованную и дубликатную коллекцию, основанную на премиум-открытых наборах данных, таких как RefinedWeb, Starcoder, C4, Pile, Slimpajama, pe2so и arxiv. Первоначальные абляционные исследования показывают, что Zyda превосходит исходные наборы данных, из которых была создана. Ранний вариант этого набора уже служит основой для модели Zamba от Zyphra, и планируется его публикация для скачивания на Hugging Face.
«Мы создали Zyda в процессе разработки предобучающего набора данных для нашей серии моделей Zamba», — делится Юрий Токпанов, инженер-исследователь в области машинного обучения и руководитель продукта Zyphra. «Этот набор данных представляет собой исключительный ресурс для обучения языковых моделей, избавляя других от необходимости создавать нечто подобное с нуля».
Zyphra стремилась улучшить существующие наборы данных, объединив различные открытые коллекции. Они тщательно очистили токены, обеспечив их уникальность, используя синтаксическую фильтрацию для удаления низкокачественных документов и внедрив строгий процесс дедупликации как внутри, так и между наборами данных. Как отмечает Zyphra в своем блоге: «Кросс-дедупликация имеет критическое значение, так как многие наборы данных содержат дублирующиеся документы из общих источников, таких как Common Crawl».
Среди семи открытых наборов данных для языкового моделирования RefinedWeb является самым крупным источником, составляя 43.6% Zyda. Другие значимые источники включают Slimpajama (18.7%) и StarCoder (17.8%), в то время как остальные составляют меньшие доли.
«В итоге мыDiscarded около 40% нашего первоначального набора данных, сократив количество токенов с примерно 2 триллионов до 1.3 триллиона», — объясняет Токпанов.
Будучи открытым исходным кодом, Zyda позволяет разработчикам использовать этот передовой набор данных для языкового моделирования в различных приложениях, от улучшения предсказаний слов и генерации текста до повышения качества перевода. Если Zyda оправдает ожидания, это позволит разработчикам оптимизировать свои процессы, сокращая время и затраты на производство.
Интересно, откуда название Zyda? Токпанов раскрывает, что это сочетание «Zyphra Dataset».
Скачать Zyda можно на странице Zyphra в Hugging Face.