今天,加拿大企業AI創業公司Cohere的非營利研究部門Cohere for AI(C4AI)宣布釋放Aya 23的開放權重,這是一系列尖端的多語言語言模型。
Aya 23提供了兩個變體:8B和35B參數。在此背景下,參數表示人工神經元之間連接的強度,數字越大則模型越強大。這次釋放是C4AI Aya計畫的一部分,旨在提升多語言能力。
C4AI已將Aya 23的權重開源,使第三方研究人員能夠根據其特定需求微調該模型。雖然這並不構成完整的開源釋放(包括訓練數據和架構細節),但它提供了相當大的靈活性,與Meta的Llama模型類似。
Aya 23在其前身Aya 101的基礎上,支持23種語言:阿拉伯語、中文(簡體及繁體)、捷克語、荷蘭語、英語、法語、德語、希臘語、希伯來語、印地語、印尼語、意大利語、日語、韓語、波斯語、波蘭語、葡萄牙語、羅馬尼亞語、俄語、西班牙語、土耳其語、烏克蘭語以及越南語。
Cohere for AI聲稱,這些模型將尖端的語言建模能力擴展至全球幾乎一半的人口。此外,Aya 23不僅超越了Aya 101,還在支持的語言中提供了比其他開源模型(如Google的Gemma和Mistral的產品)更高質量的回答。
打破語言障礙的Aya
儘管大型語言模型(LLMs)在近年來逐漸受到關注,但大多數模型主要集中於英語。因此,許多模型在資源較少的語言方面表現不佳。
C4AI的研究人員發現了兩個關鍵問題:缺乏強大的多語言預訓練模型,以及缺乏多樣化的指令風格訓練數據。為了解決這些挑戰,C4AI啟動了Aya計畫,與來自119個國家的3000多名獨立研究人員合作。他們的首個成就便是Aya Collection,這是一個龐大的多語言指令風格數據集,包含5.13億條提示和完成,因此用於創建涵蓋101種語言的指令調整LLM。
在2024年2月釋出的Aya 101標誌著多語言語言建模的重大進展。然而,該模型基於現在已過時的mT5架構,其廣泛的設計削弱了各個語言的性能。
隨著Aya 23的推出,Cohere for AI採取了更加平衡的方法,集中於23種語言以提升性能。這些模型基於Cohere的Command系列和Aya Collection,通過專注於較少的語言來改善生成質量。
評估結果表明,Aya 23在各種辨別性和生成性任務中超越了Aya 101以及其他廣泛使用的模型如Gemma和Mistral。改進幅度達到14%(辨別性任務)、20%(生成性任務)以及41.6%(多語言MMLU)。特別是,Aya 23在多語言數學推理方面相比於Aya 101提高了6.6倍。
立即使用
Cohere for AI在高性能多語言模型上又邁出了重要一步。8B和35B模型的開放權重現已在Hugging Face上提供,根據《創意共享署名-非商業性4.0國際公共許可證》使用。
“通過釋放Aya 23模型系列的權重,我們旨在幫助研究人員和從業者推進多語言模型和應用的發展,”研究人員表示。用戶也可以在Cohere Playground上免費實驗這些新模型。