今天,Cohere for AI,一個由Cohere於2022年創立的非營利研究實驗室,推出了Aya,一個開源的大型語言模型(LLM),支持101種語言,超過現有開源模型的兩倍。此次發布還伴隨著Aya數據集,該數據集包含人類標註,對於訓練較少使用語言的模型至關重要。Cohere for AI的研究人員還開發了在有限訓練數據下提升模型性能的方法。
Aya項目自2023年1月啟動以來,吸引了來自119個國家的3000多位合作者,這是一次重大的努力。Cohere的研究副總裁Sara Hooker表示,該項目超出了最初的預期,擁有超過5.13億條精調指令標註。這些關鍵數據被視為“金礦”,對於改進大型語言模型的訓練至關重要,超越了僅從互聯網上抓取的基本數據。
Cohere共同創辦人兼CTO Ivan Zhang在X平台上分享,團隊正在推出超過100種語言的人類示範,以擴大大型語言模型的可及性,確保其能夠服務全球受眾,而不僅限於英語使用者。他讚賞這是Hooker和Cohere for AI團隊在科學和運營方面的卓越成就。
釋放大型語言模型對於代表性不足語言與文化的潛力
根據Cohere的博客貼文,Aya模型和數據集旨在幫助研究人員挖掘現有模型未充分關注的多種語言和文化的潛力。Cohere for AI的基準測試顯示,Aya模型顯著優於最佳的開源多語言模型,如mT0和Bloomz,並擴展到超過50種之前未被服務的語言,包括索馬利亞語和烏茲別克語。
Hooker強調,支持超過6種語言的模型被視為“極端”,而真正實現“極為多語言”表現的模型只有少數,通常接近25種語言。
解決英語以外的數據資源不足問題
Hooker解釋,除了英語的精調數據外,還存在一個數據“懸崖”,使得Aya的數據集格外珍貴。她相信研究人員會從該數據集中選擇語言,以針對特定語言社區開發模型,這是迫切的需求。然而,她也指出,主要的技術挑戰在於精確度,因為全球用戶期望能夠獲得針對其語言量身定制的模型。
前Google DeepMind研究員Aleksa Gordic,創建的YugoGPT在塞爾維亞語、波士尼亞語、克羅埃西亞語和黑山語方面超越了Mistral和Llama 2,強調了像Aya這樣的多語言數據集的重要性。他表示,為非英語語言開發高品質大型語言模型,必須有高品質和豐富的數據來源。
儘管他認為這項努力是朝著正確方向邁出了重要一步,但Gordic指出,全球研究社區和政府支持對於創建和維護大型高品質數據集,以在不斷演變的AI環境中保護語言和文化是必要的。
Cohere for AI的Aya模型和數據集現已在Hugging Face上提供。