Cohere가 20개 이상의 언어를 지원하는 오픈 웨이트 AI 모델 'Aya 23'를 공개했습니다.

오늘, 캐나다 기업 AI 스타트업 Cohere의 비영리 연구 부서인 Cohere for AI (C4AI)는 최첨단 다국어 언어 모델인 Aya 23의 오픈 웨이트를 발표했습니다. Aya 23는 8B와 35B 두 가지 변형으로 제공됩니다. 여기서 매개변수는 인공 신경망 간의 연결 강도를 나타내며, 숫자가 클수록 더 강력하고 능력 있는 모델을 의미합니다. 이번 릴리스는 다국어 능력을 향상시키기 위한 C4AI의 Aya 이니셔티브의 일환입니다.

C4AI는 Aya 23의 가중치를 오픈 소스로 제공하여 제3의 연구자들이 특정 요구에 맞게 모델을 미세 조정할 수 있도록 했습니다. 이는 훈련 데이터와 아키텍처 세부정보가 포함된 전체 오픈 소스 릴리스는 아니지만, Meta의 Llama 모델과 유사한 상당한 유연성을 제공합니다.

Aya 23은 이전 모델 Aya 101을 기반으로 하며, 아랍어, 중국어(간체 및 번체), 체코어, 네덜란드어, 영어, 프랑스어, 독일어, 그리스어, 히브리어, 힌디어, 인도네시아어, 이탈리아어, 일본어, 한국어, 페르시아어, 폴란드어, 포르투갈어, 루마니아어, 러시아어, 스페인어, 터키어, 우크라이나어, 베트남어 등 총 23개 언어를 지원합니다. Cohere for AI는 이 모델들이 세계 인구의 거의 절반에 국가적 최첨단 언어 모델링 능력을 확장한다고 주장하고 있습니다. 또한, Aya 23은 Aya 101뿐만 아니라 Google의 Gemma 및 Mistral 같은 다른 공개 모델보다도 더 나은 품질을 제공하고 있습니다.

언어 장벽 허물기: Aya

최근 몇 년 동안 대형 언어 모델(LLM)이 주목받고 있지만 대부분은 영어에 집중되어 있습니다. 이로 인해 자원이 부족한 언어에서는 많은 모델이 어려움을 겪고 있습니다. C4AI 연구자들은 두 가지 주요 문제를 발견했습니다: 견고한 다국어 사전 훈련 모델의 부족과 다양한 지침 스타일의 훈련 데이터 결핍입니다. 이러한 문제를 해결하기 위해 C4AI는 119개국의 3,000명 이상의 독립 연구자들과 협력하여 Aya 이니셔티브를 출범시켰습니다. 그들의 첫 번째 성과는 5억 1,300만 개의 프롬프트와 완성을 포함하는 방대한 다국어 지침 스타일 데이터셋인 Aya Collection이었습니다.

2024년 2월에 출시된 Aya 101은 다국어 언어 모델링에 있어 중대한 발전을 이룩했습니다. 하지만 이는 이제 구식이 된 mT5를 기반으로 하여, 다양한 언어에서의 성능을 희석시켰습니다. Aya 23의 도입으로 Cohere for AI는 균형 잡힌 접근 방식으로 전환하여 성능을 향상시키기 위해 23개 언어에 집중하고 있습니다. 이 모델들은 Cohere의 Command 시리즈와 Aya Collection을 기반으로 하여, 더 적은 언어에 자원을 집중함으로써 생성 품질을 개선합니다.

평가 결과에 따르면 Aya 23은 다양한 차별적 및 생성 작업에서 Aya 101 및 Gemma, Mistral과 같은 널리 사용되는 모델보다 우수한 성능을 보입니다. 차별적 작업에서 최대 14%, 생성 작업에서 20%, 다국어 MMLU에서 41.6% 향상을 포함해, 특히 Aya 23은 Aya 101에 비해 다국어 수학적 추론에서 6.6배 증가한 성과를 달성했습니다.

지금 이용 가능

Cohere for AI는 고성능 다국어 모델을 향한 또 다른 중요한 단계를 밟았습니다. 8B 및 35B 모델의 오픈 웨이트가 이제 Creative Commons Attribution-NonCommercial 4.0 국제 공개 라이센스 하에 Hugging Face에서 제공됩니다. 연구자들은 “Aya 23 모델 가족의 가중치를 공개함으로써 연구자와 실무자들이 다국어 모델과 애플리케이션을 발전시키도록 할 것입니다.”라고 밝혔습니다. 사용자들은 또한 Cohere Playground에서 새로운 모델을 무료로 실험해볼 수 있습니다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles