Zyphra Lança Zyda: Um Conjunto de Dados de Modelagem de Linguagem de 1,3T que Promete Superar Pile, C4 e arXiv

Zyphra Technologies Lança Zyda: Um Conjunto de Dados Revolucionário para Modelos de Linguagem

A Zyphra Technologies anunciou o lançamento de Zyda, um extenso conjunto de dados projetado para aprimorar o treinamento de modelos de linguagem. Composto por 1,3 trilhões de tokens, Zyda é uma coleção meticulosamente filtrada e deduplicada, derivada de conjuntos de dados abertos de alta qualidade, como RefinedWeb, Starcoder, C4, Pile, Slimpajama, pe2so e arxiv. Estudos iniciais de ablação indicam que Zyda supera os conjuntos de dados de origem. Uma versão preliminar deste conjunto já está alimentando o modelo Zamba da Zyphra, com planos de disponibilização para download na Hugging Face.

"Desenvolvemos Zyda durante a criação de um conjunto de dados para pré-treinamento da nossa série de modelos Zamba", compartilha Yury Tokpanov, engenheiro de pesquisa em aprendizado de máquina e líder de produto da Zyphra. Este conjunto oferece um recurso de qualidade excepcional para o treinamento de modelos de linguagem, eliminando a necessidade de recriar algo como Zyda do zero.

A Zyphra buscou melhorar os conjuntos de dados existentes, combinando várias coleções de código aberto. Eles limparam meticulosamente os tokens para garantir a exclusividade, utilizando filtragem sintática para eliminar documentos de baixa qualidade e implementando um rigoroso processo de deduplicação, tanto dentro quanto entre os conjuntos de dados. Como a Zyphra observa em um post no blog, "A deduplicação cruzada é crucial, pois muitos conjuntos de dados contêm documentos sobrepostos de fontes comuns, como o Common Crawl."

Entre os sete conjuntos de dados de modelagem de linguagem abertos utilizados, o RefinedWeb é o maior contribuinte, representando 43,6% do Zyda. Outras fontes significativas incluem Slimpajama (18,7%) e StarCoder (17,8%), enquanto o restante corresponde a porcentagens menores.

"No total, descartamos aproximadamente 40% do nosso conjunto de dados inicial, reduzindo sua contagem de tokens de cerca de 2 trilhões para 1,3 trilhões", explica Tokpanov.

Sendo de código aberto, Zyda permite que desenvolvedores aproveitem este conjunto de dados de modelagem de linguagem de ponta para diversas aplicações, desde previsões de palavras aprimoradas e geração de texto até traduções linguísticas melhoradas. Se o Zyda funcionar como esperado, permitirá que os desenvolvedores otimizem seus processos, reduzindo tempo e custos de produção.

Curioso sobre o nome Zyda? Tokpanov revela que é uma combinação de "Zyphra Dataset."

Você pode baixar o Zyda na página da Zyphra na Hugging Face.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles