수요일, Allen Institute for AI (AI2)는 70억 개 매개변수를 갖춘 OLMo 1.7-7B 모델의 업데이트를 발표했습니다. 이 향상된 버전은 보다 광범위하고 다양한 Dolma 데이터셋을 활용하며, 고급 훈련 프로세스를 통해 개발되었습니다.
OLMo는 2월에 처음 소개되었으며, "진정한 오픈 소스의 최첨단 대규모 언어 모델"로 자리매김하고 있습니다. 이 모델은 종합적인 사전 훈련 데이터, 훈련 코드, 모델 가중치 및 평가 지표를 포함하고 있습니다.
최신 업데이트에 따라 OLMo 1.7-7B는 맥락 길이를 2,048에서 4,096 토큰으로 확장할 수 있으며, 이는 정교한 훈련 기법과 아키텍처 개선 덕분에 성능 향상을 가져옵니다. Dolma 1.7 데이터셋은 Dolma CC, Refined Web, StarCoder, C4, Stack Exchange, OpenWebMath, Project Gutenberg, Wikipedia 등에서 수집된 2.3 조 개의 인상적인 토큰을 포함하고 있습니다.
이전에는 웹 데이터를 주로 활용한 Dolma 1.5에 의존했으나, 새롭게 개선된 Dolma 1.7는 데이터 소스를 다각화하여 전문 지식, 복잡한 추론 및 코딩을 요구하는 작업을 처리하는 모델의 능력을 향상시킵니다. AI2는 중복 점수가 사전 정해진 기준치를 초과하는 문서를 제거하는 향상된 중복 제거 방법을 적용하여 콘텐츠 품질을 보장했습니다.
Dolma 1.7은 정교한 품질 필터링 시스템도 도입했습니다. FastText 분류기는 문서의 품질을 평가하여 잘 구성된 콘텐츠와 낮은 품질의 자료를 구별합니다. 고품질 소스에는 Wikipedia, Small Web RSS 피드, Semantic Scholar가 포함되며, 낮은 품질 문서에는 성인 콘텐츠 및 허위 정보 사이트가 포함됩니다. 이 분류기는 약 25GB의 데이터로 학습되었습니다.
또한, OLMo 1.7은 두 단계의 훈련 커리큘럼을 채택합니다. 초기에는 연구자들이 모델을 처음부터 훈련시키고, 두 번째 단계에서는 Dolma 1.7의 선별된 하위 집합으로 추가 500억 개의 토큰을 활용하여 단계적으로 학습 속도를 제로로 줄이면서 모델을 더욱 훈련시킵니다. 이 우수한 하위 집합은 가능한 모든 Wikipedia, OpenWebMath 및 Flan 데이터를 포함하되 특정 소스를 제외하고 남은 데이터셋의 비율을 균형 있게 조정하여 구성됩니다.
AI2는 이러한 개선이 OLMo 1.7-7B가 MMLU 벤치마크에서 Llama 2-7B를 초과하고, GSM8K 데이터셋에서 Llama-2-13B를 뛰어넘게 만든다고 주장합니다.
업데이트된 OLMo 모델은 Apache 2.0 라이선스 하에 제공되며, Dolma 1.7은 ODC-BY 라이선스 하에 이용 가능합니다. 두 모델 모두 현재 Hugging Face에서 접근 가능합니다.