Zyphra, Zyda 출시: Pile, C4, arXiv를 초월할 것으로 보이는 1.3T 언어 모델링 데이터셋

Zyphra Technologies, Zyda를 공개하다: 혁신적인 언어 모델 데이터셋

Zyphra Technologies가 언어 모델 훈련을 향상시키기 위한 방대한 데이터셋, Zyda의 출시를 발표했습니다. 1.3조 개의 토큰으로 구성된 Zyda는 RefinedWeb, Starcoder, C4, Pile, Slimpajama, pe2so, arxiv와 같은 프리미엄 오픈 데이터셋에서 유래된 정교하게 필터링되고 중복 제거된 컬렉션입니다. 초기 실험 결과, Zyda는 구성된 데이터셋보다 우수한 성능을 보이고 있습니다. 이 데이터셋의 초기 버전은 이미 Zyphra의 Zamba 모델에 적용되었으며, Hugging Face에서 다운로드할 계획입니다.

“우리는 Zamba 모델 시리즈를 위한 사전 훈련 데이터셋을 개발하는 과정에서 Zyda를 만들었습니다,”라고 Zyphra의 기계 학습 연구 엔지니어이자 제품 책임자인 Yury Tokpanov가 전했습니다. 이 데이터셋은 언어 모델 훈련을 위한 매우 높은 품질의 자원을 제공하여 Zyda와 같은 것을 새로 만들 필요성을 없앱니다.

Zyphra는 다양한 오픈 소스 컬렉션을 결합하여 기존 데이터셋을 개선하는 데 목표를 두었습니다. 고유성을 보장하기 위해 토큰을 철저히 정리하고, 저품질 문서를 제거하기 위한 구문 필터링을 사용하며, 데이터셋 내외부에서 엄격한 중복 제거 과정을 실시했습니다. Zyphra는 블로그 게시물에서 “교차 중복 제거는 중요합니다. 많은 데이터셋이 Common Crawl과 같은 공통 출처에서 중복된 문서를 포함하고 있기 때문입니다.”라고 언급합니다.

사용된 일곱 개의 오픈 언어 모델링 데이터셋 중 RefinedWeb이 가장 큰 기여를 하여 Zyda의 43.6%를 차지합니다. Slimpajama(18.7%)와 StarCoder(17.8%)가 그 다음으로 큰 기여를 하고 있으며, 나머지 데이터셋은 더 작은 비율을 차지합니다.

“우리는 초기 데이터셋의 약 40%를 폐기하여 토큰 수를 약 2조에서 1.3조로 줄였습니다,”라고 Tokpanov가 설명합니다.

오픈소스로 제공되는 Zyda는 개발자들이 다양한 응용 프로그램에서 이 첨단 언어 모델 데이터셋을 활용할 수 있도록 합니다. 향상된 단어 예측, 텍스트 생성, 언어 번역 개선 등의 분야에서 생산 시간과 비용을 줄일 수 있습니다.

Zyda라는 이름이 궁금하신가요? Tokpanov는 “Zyphra Dataset”의 조합이라고 밝혔습니다.

Zyda는 Zyphra의 Hugging Face 페이지에서 다운로드할 수 있습니다.

Most people like

Find AI tools in YBX