Cohere for AI, 오픈 소스 LLM 발표: 101개 언어 지원으로 글로벌 AI 커뮤니케이션 강화

Home AI 뉴스 Cohere for AI, 오픈 소스 LLM 발표: 101개 언어 지원으로 글로벌 AI 커뮤니케이션 강화

오늘, 2022년에 설립된 비영리 연구랩 Cohere for AI가 101개 언어를 지원하는 오픈 소스 대규모 언어 모델(LLM) 'Aya'를 발표했습니다. 이는 현재 존재하는 오픈 소스 모델이 제공하는 언어 수의 두 배가 넘는 수치입니다.

이와 함께 발표된 Aya 데이터셋은 덜 알려진 언어의 모델 훈련에 필수적인 인간 주석이 포함되어 있습니다. Cohere for AI의 연구자들은 제한된 훈련 데이터로 모델 성능을 향상시키는 방법도 개발하였습니다.

2023년 1월에 시작된 Aya 프로젝트는 119개 국가의 3,000명 이상의 협력자가 참여한 대규모 프로젝트로, Sara Hooker는 연구 부사장이자 Cohere for AI의 리더로서 이 프로젝트가 예상보다 훨씬 더 큰 규모로 발전했으며, 5억 1천3백만 개 이상의 세부 조정된 주석을 자랑한다고 밝혔습니다. 이 데이터는 기본적으로 인터넷에서 수집된 데이터를 넘어 LLM 훈련을 개선하는 데 필수적인 "황금 데이터"로 여겨집니다.

Cohere의 공동 창립자이자 CTO인 Ivan Zhang은 X에서 팀이 LLM 접근성을 넓히기 위해 100개 이상의 언어로 인간 데모를 공개한다고 전하며, 이는 영어 사용자를 넘어서 전 세계 청중에게 LLM이 적합하도록 보장하는 노력을 강조했습니다. 그는 Hooker와 Cohere for AI 팀의 이 성과를 경이로운 과학적 및 운영적 성취로 찬사를 보냈습니다.

소외된 언어와 문화를 위한 LLM의 잠재력 발휘

Cohere의 블로그 게시물에 따르면, Aya 모델과 데이터셋은 기존 모델들이 간과한 많은 언어와 문화에 대한 LLM의 잠재력을 탐구하도록 연구자들을 돕는 것을 목표로 하고 있습니다. Cohere for AI의 벤치마크에 따르면 Aya 모델은 mT0 및 Bloomz와 같은 최고의 오픈 소스 다국어 모델을 유의미하게 초월하며, 소말리아어와 우즈벡어를 포함한 50개 이상의 이전에 서비스되지 않은 언어로의 확장도 이루어졌습니다.

Hooker는 6개 이상의 언어를 지원하는 모델은 "극단적"으로 간주되며, 실제로 "대규모 다국어" 성능을 구현하는 모델은 약 25개 언어에 불과하다고 강조했습니다.

영어를 넘어선 데이터 부족 문제 해결

Hooker는 영어 세부 조정 데이터 외부에 데이터 "절벽"이 존재하여 Aya의 데이터셋이 매우 희귀하다고 설명했습니다. 그녀는 연구자들이 특정 언어 커뮤니티를 위한 모델을 개발하기 위해 데이터셋에서 언어를 선택할 것이라고 확신하지만, 사용자들이 각자의 언어에 맞춘 개인화된 모델을 기대하고 있기 때문에 주요 기술적 도전 과제가 정밀성에 있다고 언급했습니다.

Google DeepMind의 전 연구원이자 세르비아어, 보스니아어, 크로아티아어, 몬테네그로어에서 Mistral 및 Llama 2를 초월한 YugoGPT의 제작자인 Aleksa Gordic는 Aya와 같은 다국어 데이터셋의 중요성을 강조했습니다. 그는 비영어권 언어를 위한 고품질 LLM을 개발하기 위해 고품질의 풍부한 데이터 소스가 필요하다고 말했습니다.

Gordic는 이러한 노력이 올바른 방향으로 나아가는 단계라고 믿지만, 언어와 문화를 AI 환경에서 보존하기 위해서는 글로벌 연구 커뮤니티와 정부 지원이 필수적이라고 강조했습니다.

Cohere for AI의 Aya 모델과 데이터셋은 이제 Hugging Face에서 사용할 수 있습니다.

회의 통찰력 해방하기: Otter.ai의 혁신적인 'Meeting GenAI', 대화에서 인사이트를 포착하는 방식을 혁신하다.

효과적인 광고 전략: 생성 AI, 장르를 넘나드는 콘텐츠, 그리고 게임화 활용 | AppLovin

Most people like

MindBridge AI

25.3K

오늘날 빠르게 변화하는 금융 환경에서 위험을 관리하는 것은 성공에 필수적입니다. 우리는 금융 리스크 발견 분야의 글로벌 리더로서 자산과 투자에 대한 잠재적 위협을 식별하고 완화하는 데 전문화되어 있습니다. 우리의 혁신적인 솔루션은 기업이 재정 건전성을 보호하고 종합적인 리스크 평가 및 관리 전략을 통해 의사 결정을 향상시킬 수 있도록 지원합니다. 귀하의 조직이 회복력과 성장을 보장할 수 있도록 금융 리스크 발견의 기준을 새롭게 정의하는 데 함께하십시오.

재무 리스크 발견 AI Analytics Assistant

lalamu.studio

126.1K

Lalamu 스튜디오는 아티스트와 디자이너를 위해 특별히 설계된 혁신적인 도구와 자원을 제공하여 그들의 창의적인 여정을 지원합니다.

예술 AI Art Generator

DeepAI

12.5M

창의적인 정신을 위한 AI 도구의 잠재력 발휘.

인공지능 AI Content Generator

Flux LoRA Model Library

LoRA 모델을 통합하여 Flux 모델 생성의 성능과 유연성을 향상시키세요. 이러한 혁신적인 모델이 어떻게 작업 흐름을 변화시키고 결과를 최적화하는지 알아보세요.

플럭스 Other

Find AI tools in YBX