앨런 인스티튜트 AI(AI2)는 Contextual AI와 협력하여 OLMoE라는 혁신적인 오픈 소스 대형 언어 모델(LLM)을 출시했습니다. OLMoE는 강력한 성능과 비용 효율성을 동시에 갖추는 것을 목표로 합니다.
OLMoE는 70억 개의 매개변수를 가진 희소 전문가 혼합(MoE) 아키텍처로 구성되어 있으며, 입력 토큰당 10억 개의 매개변수만 사용합니다. 일반 용도의 OLMoE-1B-7B와 지침 조정을 위한 OLMoE-1B-7B-Instruct 두 가지 버전이 제공됩니다. OLMoE는 다른 MoE 모델들과 달리 완전한 오픈 소스입니다. AI2는 대부분의 MoE 모델이 훈련 데이터, 코드 또는 구축 방법에 대한 투명성이 결여되어 있어 접근이 어렵다고 강조했습니다. AI2는 “대부분의 MoE 모델은 클로즈드 소스여서 훈련 데이터나 방법론에 대한 제한적인 통찰만 제공합니다. 이는 비공식 모델에 대항할 경쟁력 있는 오픈 MoE 개발을 저해합니다”라고 논문에서 언급했습니다. 이러한 접근성 부족은 연구자와 학계에 큰 장벽으로 작용합니다.
AI2의 연구 과학자인 네이선 람버트는 X(구 Twitter)에서 OLMoE가 정책 개발을 지원할 수 있으며, 학술 H100 클러스터가 등장함에 따라 기본 도구로 활용될 수 있다고 밝혔습니다. 그는 “우리는 핵심 목표를 변경하지 않고 인프라와 데이터를 개선했습니다. 이 모델은 단순히 몇 가지 평가에서 가장 좋은 것이 아니라 진정한 최첨단입니다”라고 강조했습니다.
OLMoE 구축
OLMoE의 개발에 있어 AI2는 64개의 소규모 전문가를 활용한 정교한 라우팅 방식으로, 동시에 8개만 활성화하는 구성을 채택했습니다. 이 설정은 다른 모델과 비교할 때 유사한 성능을 제공하면서도 추론 비용과 메모리 요구량을 크게 줄였습니다.
OLMoE는 AI2의 이전 오픈 소스 모델 OLMO 1.7-7B를 기반으로 하며, 4,096 토큰의 컨텍스트 윈도우를 지원하고 Dolma 1.7이라는 훈련 데이터 세트를 사용했습니다. OLMoE의 훈련에는 Common Crawl, Dolma CC, Refined Web, StarCoder, C4, Stack Exchange, OpenWebMath, Project Gutenberg, Wikipedia 등 다양한 데이터 세트가 포함되었습니다.
AI2는 OLMoE가 “유사한 활성 매개변수를 가진 모든 기존 모델을 초월하며, Llama2-13B-Chat 및 DeepSeekMoE-16B와 같은 대형 모델보다도 우수하다”고 주장합니다. 벤치마크 결과에 따르면 OLMoE-1B-7B는 Mistral-7B, Llama 3.1-B, Gemma 2와 같은 70억 매개변수 이상의 모델과 근접한 경쟁을 벌입니다. 10억 매개변수 모델과의 테스트에서도 OLMoE-1B-7B는 Pythia, TinyLlama, 심지어 AI2의 OLMO와 같은 다른 오픈 소스 모델들을 월등히 초월했습니다.
오픈 소스 MoE의 필요성
AI2의 사명은 완전한 오픈 소스 AI 모델 접근성을 향상시키는 것으로, 점점 인기를 끌고 있는 MoE 아키텍처 내에서 특히 그러합니다. 많은 개발자들이 Mistral의 Mixtral 8x22B와 X.ai의 Grok와 같은 MoE 시스템으로 전환하고 있으며, GPT-4에서 MoE의 잠재적 사용에 대한 추측도 존재합니다. 그러나 AI2와 Contextual AI는 많은 기존 AI 모델들이 훈련 데이터와 코드베이스에 대한 포괄적인 투명성이 결여되어 있다고 지적합니다.
AI2는 MoE 모델의 개방성 필요성을 강조하며, 이는 전체 매개변수와 활성 매개변수 비율 결정, 여러 소규모 전문가 또는 소수의 대형 전문가 선택, 전문가 공유 및 적절한 라우팅 알고리즘 선택 등 독특한 설계 과제를 제시합니다.
또한, 오픈 소스 이니셔티브는 AI 모델의 개방성을 정의하는 문제를 적극적으로 다루며, 이 분야의 발전을 위한 투명성의 중요성을 강조하고 있습니다.