Zyphra Lança Zyda: Um Conjunto de Dados de Modelagem de Linguagem de 1,3T que Promete Superar Pile, C4 e arXiv

Home Notícias de IA Zyphra Lança Zyda: Um Conjunto de Dados de Modelagem de Linguagem de 1,3T que Promete Superar Pile, C4 e arXiv

Updated on outubro 25 2024

Zyphra Technologies Lança Zyda: Um Conjunto de Dados Revolucionário para Modelos de Linguagem

A Zyphra Technologies anunciou o lançamento de Zyda, um extenso conjunto de dados projetado para aprimorar o treinamento de modelos de linguagem. Composto por 1,3 trilhões de tokens, Zyda é uma coleção meticulosamente filtrada e deduplicada, derivada de conjuntos de dados abertos de alta qualidade, como RefinedWeb, Starcoder, C4, Pile, Slimpajama, pe2so e arxiv. Estudos iniciais de ablação indicam que Zyda supera os conjuntos de dados de origem. Uma versão preliminar deste conjunto já está alimentando o modelo Zamba da Zyphra, com planos de disponibilização para download na Hugging Face.

"Desenvolvemos Zyda durante a criação de um conjunto de dados para pré-treinamento da nossa série de modelos Zamba", compartilha Yury Tokpanov, engenheiro de pesquisa em aprendizado de máquina e líder de produto da Zyphra. Este conjunto oferece um recurso de qualidade excepcional para o treinamento de modelos de linguagem, eliminando a necessidade de recriar algo como Zyda do zero.

A Zyphra buscou melhorar os conjuntos de dados existentes, combinando várias coleções de código aberto. Eles limparam meticulosamente os tokens para garantir a exclusividade, utilizando filtragem sintática para eliminar documentos de baixa qualidade e implementando um rigoroso processo de deduplicação, tanto dentro quanto entre os conjuntos de dados. Como a Zyphra observa em um post no blog, "A deduplicação cruzada é crucial, pois muitos conjuntos de dados contêm documentos sobrepostos de fontes comuns, como o Common Crawl."

Entre os sete conjuntos de dados de modelagem de linguagem abertos utilizados, o RefinedWeb é o maior contribuinte, representando 43,6% do Zyda. Outras fontes significativas incluem Slimpajama (18,7%) e StarCoder (17,8%), enquanto o restante corresponde a porcentagens menores.

"No total, descartamos aproximadamente 40% do nosso conjunto de dados inicial, reduzindo sua contagem de tokens de cerca de 2 trilhões para 1,3 trilhões", explica Tokpanov.

Sendo de código aberto, Zyda permite que desenvolvedores aproveitem este conjunto de dados de modelagem de linguagem de ponta para diversas aplicações, desde previsões de palavras aprimoradas e geração de texto até traduções linguísticas melhoradas. Se o Zyda funcionar como esperado, permitirá que os desenvolvedores otimizem seus processos, reduzindo tempo e custos de produção.

Curioso sobre o nome Zyda? Tokpanov revela que é uma combinação de "Zyphra Dataset."

Você pode baixar o Zyda na página da Zyphra na Hugging Face.

Tomato.ai Lança Modelo de Suavização de Acento Zero-Shot para Transformar a Indústria de Call Center

A Revolução da Luna da Galileo na Avaliação de GenAI: Redução de Custos de 97% e Aumento de Velocidade em 11x

Most people like

SEOpital

16.7K

No cenário digital atual, criar conteúdo de alta qualidade é essencial para melhorar sua visibilidade online. Com o aumento dos algoritmos de mecanismos de busca que priorizam informações relevantes e valiosas, um assistente de escrita com IA para SEO pode ser sua arma secreta. Essa ferramenta não apenas agiliza o processo de escrita, mas também otimiza o conteúdo para garantir que ele tenha um melhor posicionamento nos resultados de busca. Seja você um escritor experiente ou novato na criação de conteúdo, utilizar a tecnologia de IA pode levar a melhorias impressionantes no engajamento e alcance do público. Descubra como usar um assistente de escrita com IA para SEO pode elevar sua estratégia de conteúdo e aumentar o tráfego orgânico para seu site.

Assistente de escrita AI para SEO AI SEO Assistant

Juicychat AI

Apresentando a Plataforma de Chat com Personagens NSFW Picantes: Mergulhe em um ambiente envolvente e divertido, onde personagens de temática adulta ganham vida através de tecnologia de IA avançada. Conecte-se com uma variedade de personalidades enquanto explora conversas estimulantes e cenários únicos adaptados às suas preferências. Experimente uma mistura emocionante de fantasia e interação, tudo isso em um espaço seguro e amigável para o usuário. Junte-se hoje e descubra as possibilidades emocionantes!

Chat AI NSFW NSFW

AutoDraw

746.4K

O AutoDraw melhora a experiência de esboço ao oferecer sugestões de ícones e desenhos relevantes, adaptadas às entradas dos usuários. Esta ferramenta inovadora simplifica o processo criativo, permitindo que qualquer pessoa transforme rapidamente suas ideias em visuais bem elaborados.

AutoDraw AI Art Generator

Machine learning at scale

Descubra um recurso abrangente para insights em aprendizado de máquina, com análises de especialistas e atualizações de grandes empresas do setor.

aprendizado de máquina Newsletter

Find AI tools in YBX