Cohere for AI, 오픈 소스 LLM 발표: 101개 언어 지원으로 글로벌 AI 커뮤니케이션 강화

오늘, 2022년에 설립된 비영리 연구랩 Cohere for AI가 101개 언어를 지원하는 오픈 소스 대규모 언어 모델(LLM) 'Aya'를 발표했습니다. 이는 현재 존재하는 오픈 소스 모델이 제공하는 언어 수의 두 배가 넘는 수치입니다.

이와 함께 발표된 Aya 데이터셋은 덜 알려진 언어의 모델 훈련에 필수적인 인간 주석이 포함되어 있습니다. Cohere for AI의 연구자들은 제한된 훈련 데이터로 모델 성능을 향상시키는 방법도 개발하였습니다.

2023년 1월에 시작된 Aya 프로젝트는 119개 국가의 3,000명 이상의 협력자가 참여한 대규모 프로젝트로, Sara Hooker는 연구 부사장이자 Cohere for AI의 리더로서 이 프로젝트가 예상보다 훨씬 더 큰 규모로 발전했으며, 5억 1천3백만 개 이상의 세부 조정된 주석을 자랑한다고 밝혔습니다. 이 데이터는 기본적으로 인터넷에서 수집된 데이터를 넘어 LLM 훈련을 개선하는 데 필수적인 "황금 데이터"로 여겨집니다.

Cohere의 공동 창립자이자 CTO인 Ivan Zhang은 X에서 팀이 LLM 접근성을 넓히기 위해 100개 이상의 언어로 인간 데모를 공개한다고 전하며, 이는 영어 사용자를 넘어서 전 세계 청중에게 LLM이 적합하도록 보장하는 노력을 강조했습니다. 그는 Hooker와 Cohere for AI 팀의 이 성과를 경이로운 과학적 및 운영적 성취로 찬사를 보냈습니다.

소외된 언어와 문화를 위한 LLM의 잠재력 발휘

Cohere의 블로그 게시물에 따르면, Aya 모델과 데이터셋은 기존 모델들이 간과한 많은 언어와 문화에 대한 LLM의 잠재력을 탐구하도록 연구자들을 돕는 것을 목표로 하고 있습니다. Cohere for AI의 벤치마크에 따르면 Aya 모델은 mT0 및 Bloomz와 같은 최고의 오픈 소스 다국어 모델을 유의미하게 초월하며, 소말리아어와 우즈벡어를 포함한 50개 이상의 이전에 서비스되지 않은 언어로의 확장도 이루어졌습니다.

Hooker는 6개 이상의 언어를 지원하는 모델은 "극단적"으로 간주되며, 실제로 "대규모 다국어" 성능을 구현하는 모델은 약 25개 언어에 불과하다고 강조했습니다.

영어를 넘어선 데이터 부족 문제 해결

Hooker는 영어 세부 조정 데이터 외부에 데이터 "절벽"이 존재하여 Aya의 데이터셋이 매우 희귀하다고 설명했습니다. 그녀는 연구자들이 특정 언어 커뮤니티를 위한 모델을 개발하기 위해 데이터셋에서 언어를 선택할 것이라고 확신하지만, 사용자들이 각자의 언어에 맞춘 개인화된 모델을 기대하고 있기 때문에 주요 기술적 도전 과제가 정밀성에 있다고 언급했습니다.

Google DeepMind의 전 연구원이자 세르비아어, 보스니아어, 크로아티아어, 몬테네그로어에서 Mistral 및 Llama 2를 초월한 YugoGPT의 제작자인 Aleksa Gordic는 Aya와 같은 다국어 데이터셋의 중요성을 강조했습니다. 그는 비영어권 언어를 위한 고품질 LLM을 개발하기 위해 고품질의 풍부한 데이터 소스가 필요하다고 말했습니다.

Gordic는 이러한 노력이 올바른 방향으로 나아가는 단계라고 믿지만, 언어와 문화를 AI 환경에서 보존하기 위해서는 글로벌 연구 커뮤니티와 정부 지원이 필수적이라고 강조했습니다.

Cohere for AI의 Aya 모델과 데이터셋은 이제 Hugging Face에서 사용할 수 있습니다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles