Zyphra запускает Zyda: набор данных для языкового моделирования объемом 1,3 ТБ, который, как утверждается, превосходит Pile, C4 и arXiv.

Home Новости ИИ Zyphra запускает Zyda: набор данных для языкового моделирования объемом 1,3 ТБ, который, как утверждается, превосходит Pile, C4 и arXiv.

Updated on октябрь 25 2024

Zyphra Technologies представляет Zyda: революционный набор данных для языкового моделирования

Zyphra Technologies объявила о запуске Zyda — обширного набора данных, разработанного для повышения качества обучения языковых моделей. Включая 1.3 триллиона токенов, Zyda представляет собой тщательно отфильтрованную и дубликатную коллекцию, основанную на премиум-открытых наборах данных, таких как RefinedWeb, Starcoder, C4, Pile, Slimpajama, pe2so и arxiv. Первоначальные абляционные исследования показывают, что Zyda превосходит исходные наборы данных, из которых была создана. Ранний вариант этого набора уже служит основой для модели Zamba от Zyphra, и планируется его публикация для скачивания на Hugging Face.

«Мы создали Zyda в процессе разработки предобучающего набора данных для нашей серии моделей Zamba», — делится Юрий Токпанов, инженер-исследователь в области машинного обучения и руководитель продукта Zyphra. «Этот набор данных представляет собой исключительный ресурс для обучения языковых моделей, избавляя других от необходимости создавать нечто подобное с нуля».

Zyphra стремилась улучшить существующие наборы данных, объединив различные открытые коллекции. Они тщательно очистили токены, обеспечив их уникальность, используя синтаксическую фильтрацию для удаления низкокачественных документов и внедрив строгий процесс дедупликации как внутри, так и между наборами данных. Как отмечает Zyphra в своем блоге: «Кросс-дедупликация имеет критическое значение, так как многие наборы данных содержат дублирующиеся документы из общих источников, таких как Common Crawl».

Среди семи открытых наборов данных для языкового моделирования RefinedWeb является самым крупным источником, составляя 43.6% Zyda. Другие значимые источники включают Slimpajama (18.7%) и StarCoder (17.8%), в то время как остальные составляют меньшие доли.

«В итоге мыDiscarded около 40% нашего первоначального набора данных, сократив количество токенов с примерно 2 триллионов до 1.3 триллиона», — объясняет Токпанов.

Будучи открытым исходным кодом, Zyda позволяет разработчикам использовать этот передовой набор данных для языкового моделирования в различных приложениях, от улучшения предсказаний слов и генерации текста до повышения качества перевода. Если Zyda оправдает ожидания, это позволит разработчикам оптимизировать свои процессы, сокращая время и затраты на производство.

Интересно, откуда название Zyda? Токпанов раскрывает, что это сочетание «Zyphra Dataset».

Скачать Zyda можно на странице Zyphra в Hugging Face.

Tomato.ai представляет модель смягчения акцента без предварительной тренировки для трансформации индустрии колл-центров.

Революция Luna от Galileo в оценке GenAI: снижение затрат на 97% и увеличение скорости в 11 раз

Most people like

All GPTs Directory

13.6K

Ваше незаменимое руководство по моделям GPT и ИИ-агентам — изучите последние идеи, инструменты и приложения в мире искусственного интеллекта.

ГПТ AI Tools Directory

Uizard

Uizard: AI-инструмент для легкого создания приложений и веб-дизайна.

Система пользовательского интерфейса AI Website Builder

Speak Ai

89.8K

В современном цифровом мире программы для транскрипции, исследования, анализа данных и обработки естественного языка (NLP) играют ключевую роль в эффективном использовании информации. Эти инструменты позволяют бизнесу и исследователям преобразовывать аудио в текст, превращать сырые данные в практические выводы и анализировать языковые паттерны. Используя эти технологии, организации могут повысить продуктивность, стимулировать инновации и принимать обоснованные решения, что в конечном итоге приведет к большему успеху в их областях.

транскрипция Large Language Models (LLMs)

InterviewAI

17.2K

Подготовьтесь к успешным собеседованиям с InterviewAI! Наша платформа предлагает индивидуальные вопросы, полезную обратную связь и инновационный генератор сопроводительных писем, чтобы вы могли блеснуть. Оптимизируйте свою подготовку к интервью и выделяйтесь среди потенциальных работодателей уже сегодня!

Интервью AI Interview Assistant

Find AI tools in YBX