AI2的新效益模型:為所有人提供開放且強大的解決方案

艾倫人工智慧研究所(AI2)與Contextual AI合作推出了一款名為OLMoE的創新開源大型語言模型(LLM)。此模型旨在在強大性能與成本效益之間達成平衡。

OLMoE採用稀疏混合專家(MoE)架構,擁有70億個參數,但每次輸入僅使用10億個參數。它有兩種版本:OLMoE-1B-7B用於一般用途,OLMoE-1B-7B-Instruct則用於指令微調。

與許多其他MoE模型不同的是,OLMoE是完全開源的。AI2指出,其他MoE模型在訓練數據、代碼或建構方法上往往缺乏透明性,使得開發具成本效益的開源MoE模型變得困難。AI2在其論文中表示:“大多數MoE模型都是閉源的,限制了我們對其訓練數據或方法的了解,這對研究人員和學者造成了重大障礙。”

AI2研究科學家Nathan Lambert在X(前身為Twitter)上提到,OLMoE能夠支持政策制定,成為學術H100集群可用時的基石工具。他強調,AI2致力於發布具有競爭力的開源模型,並表示:“我們在不改變核心目標的情況下改善了基礎設施和數據。這款模型是真正的尖端技術,而不僅僅是幾項評估中的最佳。”

OLMoE的開發

在開發OLMoE時,AI2採用了精細路由的方法,利用64個小型專家,每次只激活八個。這種配置在性能上與其他模型相當,同時顯著降低了推理成本和內存需求。

OLMoE建立在AI2之前的開源模型OLMO 1.7-7B之上,該模型支持4096個標記的上下文窗口,並使用名為Dolma 1.7的訓練數據集。OLMoE的訓練數據集多樣化,包括來自Common Crawl、Dolma CC、Refined Web、StarCoder、C4、Stack Exchange、OpenWebMath、Project Gutenberg和維基百科的子集。

AI2聲稱,OLMoE“在相似的活動參數下超越所有現有模型,甚至超過像Llama2-13B-Chat和DeepSeekMoE-16B這樣更大的模型。”基準結果顯示,OLMoE-1B-7B常與擁有70億個參數或更多的模型,如Mistral-7B、Llama 3.1-B和Gemma 2,進行接近的競爭。在對抗10億參數模型的測試中,OLMoE-1B-7B顯著超越其他開源模型,包括Pythia、TinyLlama,甚至是AI2自己的OLMO。

開源MoE的必要性

AI2的使命之一是提高完全開源AI模型的可及性,特別是在日益流行的MoE架構中。許多開發者正在轉向MoE系統,如Mistral的Mixtral 8x22B和X.ai的Grok,並猜測MoE在GPT-4中的潛在應用。然而,AI2和Contextual AI指出,許多現有AI模型在其訓練數據和代碼庫上缺乏全面的透明性。

AI2強調MoE模型開放性的必要性,這些模型帶來獨特的設計挑戰,例如確定總參數與活動參數的比例、在多個小型專家與少數大型專家之間的選擇、專家的共享及適當的路由算法選擇。

此外,開源倡議正在積極探討何為開放,強調透明性在推動該領域發展中的重要性。

Most people like

Find AI tools in YBX