오늘, 캐나다 기업 AI 스타트업 Cohere의 비영리 연구 부서인 Cohere for AI (C4AI)는 최첨단 다국어 언어 모델인 Aya 23의 오픈 웨이트를 발표했습니다. Aya 23는 8B와 35B 두 가지 변형으로 제공됩니다. 여기서 매개변수는 인공 신경망 간의 연결 강도를 나타내며, 숫자가 클수록 더 강력하고 능력 있는 모델을 의미합니다. 이번 릴리스는 다국어 능력을 향상시키기 위한 C4AI의 Aya 이니셔티브의 일환입니다.
C4AI는 Aya 23의 가중치를 오픈 소스로 제공하여 제3의 연구자들이 특정 요구에 맞게 모델을 미세 조정할 수 있도록 했습니다. 이는 훈련 데이터와 아키텍처 세부정보가 포함된 전체 오픈 소스 릴리스는 아니지만, Meta의 Llama 모델과 유사한 상당한 유연성을 제공합니다.
Aya 23은 이전 모델 Aya 101을 기반으로 하며, 아랍어, 중국어(간체 및 번체), 체코어, 네덜란드어, 영어, 프랑스어, 독일어, 그리스어, 히브리어, 힌디어, 인도네시아어, 이탈리아어, 일본어, 한국어, 페르시아어, 폴란드어, 포르투갈어, 루마니아어, 러시아어, 스페인어, 터키어, 우크라이나어, 베트남어 등 총 23개 언어를 지원합니다. Cohere for AI는 이 모델들이 세계 인구의 거의 절반에 국가적 최첨단 언어 모델링 능력을 확장한다고 주장하고 있습니다. 또한, Aya 23은 Aya 101뿐만 아니라 Google의 Gemma 및 Mistral 같은 다른 공개 모델보다도 더 나은 품질을 제공하고 있습니다.
언어 장벽 허물기: Aya
최근 몇 년 동안 대형 언어 모델(LLM)이 주목받고 있지만 대부분은 영어에 집중되어 있습니다. 이로 인해 자원이 부족한 언어에서는 많은 모델이 어려움을 겪고 있습니다. C4AI 연구자들은 두 가지 주요 문제를 발견했습니다: 견고한 다국어 사전 훈련 모델의 부족과 다양한 지침 스타일의 훈련 데이터 결핍입니다. 이러한 문제를 해결하기 위해 C4AI는 119개국의 3,000명 이상의 독립 연구자들과 협력하여 Aya 이니셔티브를 출범시켰습니다. 그들의 첫 번째 성과는 5억 1,300만 개의 프롬프트와 완성을 포함하는 방대한 다국어 지침 스타일 데이터셋인 Aya Collection이었습니다.
2024년 2월에 출시된 Aya 101은 다국어 언어 모델링에 있어 중대한 발전을 이룩했습니다. 하지만 이는 이제 구식이 된 mT5를 기반으로 하여, 다양한 언어에서의 성능을 희석시켰습니다. Aya 23의 도입으로 Cohere for AI는 균형 잡힌 접근 방식으로 전환하여 성능을 향상시키기 위해 23개 언어에 집중하고 있습니다. 이 모델들은 Cohere의 Command 시리즈와 Aya Collection을 기반으로 하여, 더 적은 언어에 자원을 집중함으로써 생성 품질을 개선합니다.
평가 결과에 따르면 Aya 23은 다양한 차별적 및 생성 작업에서 Aya 101 및 Gemma, Mistral과 같은 널리 사용되는 모델보다 우수한 성능을 보입니다. 차별적 작업에서 최대 14%, 생성 작업에서 20%, 다국어 MMLU에서 41.6% 향상을 포함해, 특히 Aya 23은 Aya 101에 비해 다국어 수학적 추론에서 6.6배 증가한 성과를 달성했습니다.
지금 이용 가능
Cohere for AI는 고성능 다국어 모델을 향한 또 다른 중요한 단계를 밟았습니다. 8B 및 35B 모델의 오픈 웨이트가 이제 Creative Commons Attribution-NonCommercial 4.0 국제 공개 라이센스 하에 Hugging Face에서 제공됩니다. 연구자들은 “Aya 23 모델 가족의 가중치를 공개함으로써 연구자와 실무자들이 다국어 모델과 애플리케이션을 발전시키도록 할 것입니다.”라고 밝혔습니다. 사용자들은 또한 Cohere Playground에서 새로운 모델을 무료로 실험해볼 수 있습니다.