Zyphra, Zyda 출시: Pile, C4, arXiv를 초월할 것으로 보이는 1.3T 언어 모델링 데이터셋

Home AI 뉴스 Zyphra, Zyda 출시: Pile, C4, arXiv를 초월할 것으로 보이는 1.3T 언어 모델링 데이터셋

Zyphra Technologies, Zyda를 공개하다: 혁신적인 언어 모델 데이터셋

Zyphra Technologies가 언어 모델 훈련을 향상시키기 위한 방대한 데이터셋, Zyda의 출시를 발표했습니다. 1.3조 개의 토큰으로 구성된 Zyda는 RefinedWeb, Starcoder, C4, Pile, Slimpajama, pe2so, arxiv와 같은 프리미엄 오픈 데이터셋에서 유래된 정교하게 필터링되고 중복 제거된 컬렉션입니다. 초기 실험 결과, Zyda는 구성된 데이터셋보다 우수한 성능을 보이고 있습니다. 이 데이터셋의 초기 버전은 이미 Zyphra의 Zamba 모델에 적용되었으며, Hugging Face에서 다운로드할 계획입니다.

“우리는 Zamba 모델 시리즈를 위한 사전 훈련 데이터셋을 개발하는 과정에서 Zyda를 만들었습니다,”라고 Zyphra의 기계 학습 연구 엔지니어이자 제품 책임자인 Yury Tokpanov가 전했습니다. 이 데이터셋은 언어 모델 훈련을 위한 매우 높은 품질의 자원을 제공하여 Zyda와 같은 것을 새로 만들 필요성을 없앱니다.

Zyphra는 다양한 오픈 소스 컬렉션을 결합하여 기존 데이터셋을 개선하는 데 목표를 두었습니다. 고유성을 보장하기 위해 토큰을 철저히 정리하고, 저품질 문서를 제거하기 위한 구문 필터링을 사용하며, 데이터셋 내외부에서 엄격한 중복 제거 과정을 실시했습니다. Zyphra는 블로그 게시물에서 “교차 중복 제거는 중요합니다. 많은 데이터셋이 Common Crawl과 같은 공통 출처에서 중복된 문서를 포함하고 있기 때문입니다.”라고 언급합니다.

사용된 일곱 개의 오픈 언어 모델링 데이터셋 중 RefinedWeb이 가장 큰 기여를 하여 Zyda의 43.6%를 차지합니다. Slimpajama(18.7%)와 StarCoder(17.8%)가 그 다음으로 큰 기여를 하고 있으며, 나머지 데이터셋은 더 작은 비율을 차지합니다.

“우리는 초기 데이터셋의 약 40%를 폐기하여 토큰 수를 약 2조에서 1.3조로 줄였습니다,”라고 Tokpanov가 설명합니다.

오픈소스로 제공되는 Zyda는 개발자들이 다양한 응용 프로그램에서 이 첨단 언어 모델 데이터셋을 활용할 수 있도록 합니다. 향상된 단어 예측, 텍스트 생성, 언어 번역 개선 등의 분야에서 생산 시간과 비용을 줄일 수 있습니다.

Zyda라는 이름이 궁금하신가요? Tokpanov는 “Zyphra Dataset”의 조합이라고 밝혔습니다.

Zyda는 Zyphra의 Hugging Face 페이지에서 다운로드할 수 있습니다.

음성 사기의 위험성 공개: 보이지 않는 범죄에 맞서 싸울 수 없는 이유

OpenAI 스프링 업데이트 이벤트: 시청 방법, 시작 시간 및 기대할 내용

Most people like

MagicSlides

617.2K

매직 슬라이드는 인공지능의 힘을 활용하여 모든 텍스트 입력에서 매혹적인 프레젠테이션 슬라이드를 생성합니다. 귀하의 아이디어를 손쉽게 매력적인 시각적 프레젠테이션으로 변환하세요!

프레젠테이션 소프트웨어 AI Presentation Generator

1PX.AI The world's most advanced AI photo generator

5.5K

오늘날 디지털 세계에서는 독특하고 개인화된 아바타나 사진 변환을 만드는 것이 그 어느 때보다 쉬워졌습니다. 최첨단 AI 기술을 통해, 우리의 AI 아바타 및 사진 생성기는 사용자가 눈길을 사로잡는 디지털 표현을 손쉽게 디자인할 수 있게 해줍니다. 온라인 존재감을 강화하거나 창의력을 표현하든, 이 혁신적인 도구는 사용자의 요구에 맞춘 고품질 이미지를 쉽게 생성할 수 있도록 돕습니다. 아이디어를 시각으로 변환하고 오늘 AI 아바타 생성의 힘을 경험해 보세요!

AI 아바타 생성기 AI Avatar Generator

maths.ai

7.4K

친근한 AI 수학 튜터를 만나보세요. 수학 학습을 재미있고 접근 가능하게 만들어드립니다! 직관적인 플랫폼을 통해 기본 산수부터 고급 미적분까지 개인 맞춤형 지원을 받아보세요. 수많은 학습자들이 우리의 인터랙티브 수업과 즉각적인 피드백으로 자신감과 실력을 키우고 있습니다. 함께 수학 잠재력을 열어봅시다!

수학 튜터 AI Chatbot

MovieWiser

362.6K

무비와이저는 당신의 독특한 취향에 맞춰 영화와 TV 시리즈를 추천하는 지능형 AI 기반 플랫폼입니다. 고급 알고리즘을 이용해 무비와이저는 다음에 좋아할 영화나 프로그램을 찾는 과정을 간소화하여 개인화된 엔터테인먼트 추천을 그 어느 때보다 쉽게 만들어줍니다. 당신의 취향에 맞는 큐레이션된 콘텐츠의 세계를 발견하세요!

영화 Other

Find AI tools in YBX