AI2的新效益模型：為所有人提供開放且強大的解決方案

Home AI新聞 AI2的新效益模型：為所有人提供開放且強大的解決方案

艾倫人工智慧研究所（AI2）與Contextual AI合作推出了一款名為OLMoE的創新開源大型語言模型（LLM）。此模型旨在在強大性能與成本效益之間達成平衡。

OLMoE採用稀疏混合專家（MoE）架構，擁有70億個參數，但每次輸入僅使用10億個參數。它有兩種版本：OLMoE-1B-7B用於一般用途，OLMoE-1B-7B-Instruct則用於指令微調。

與許多其他MoE模型不同的是，OLMoE是完全開源的。AI2指出，其他MoE模型在訓練數據、代碼或建構方法上往往缺乏透明性，使得開發具成本效益的開源MoE模型變得困難。AI2在其論文中表示：“大多數MoE模型都是閉源的，限制了我們對其訓練數據或方法的了解，這對研究人員和學者造成了重大障礙。”

AI2研究科學家Nathan Lambert在X（前身為Twitter）上提到，OLMoE能夠支持政策制定，成為學術H100集群可用時的基石工具。他強調，AI2致力於發布具有競爭力的開源模型，並表示：“我們在不改變核心目標的情況下改善了基礎設施和數據。這款模型是真正的尖端技術，而不僅僅是幾項評估中的最佳。”

OLMoE的開發

在開發OLMoE時，AI2採用了精細路由的方法，利用64個小型專家，每次只激活八個。這種配置在性能上與其他模型相當，同時顯著降低了推理成本和內存需求。

OLMoE建立在AI2之前的開源模型OLMO 1.7-7B之上，該模型支持4096個標記的上下文窗口，並使用名為Dolma 1.7的訓練數據集。OLMoE的訓練數據集多樣化，包括來自Common Crawl、Dolma CC、Refined Web、StarCoder、C4、Stack Exchange、OpenWebMath、Project Gutenberg和維基百科的子集。

AI2聲稱，OLMoE“在相似的活動參數下超越所有現有模型，甚至超過像Llama2-13B-Chat和DeepSeekMoE-16B這樣更大的模型。”基準結果顯示，OLMoE-1B-7B常與擁有70億個參數或更多的模型，如Mistral-7B、Llama 3.1-B和Gemma 2，進行接近的競爭。在對抗10億參數模型的測試中，OLMoE-1B-7B顯著超越其他開源模型，包括Pythia、TinyLlama，甚至是AI2自己的OLMO。

開源MoE的必要性

AI2的使命之一是提高完全開源AI模型的可及性，特別是在日益流行的MoE架構中。許多開發者正在轉向MoE系統，如Mistral的Mixtral 8x22B和X.ai的Grok，並猜測MoE在GPT-4中的潛在應用。然而，AI2和Contextual AI指出，許多現有AI模型在其訓練數據和代碼庫上缺乏全面的透明性。

AI2強調MoE模型開放性的必要性，這些模型帶來獨特的設計挑戰，例如確定總參數與活動參數的比例、在多個小型專家與少數大型專家之間的選擇、專家的共享及適當的路由算法選擇。

此外，開源倡議正在積極探討何為開放，強調透明性在推動該領域發展中的重要性。

ServiceNow推出可自訂的企業人工智慧代理庫，專為您的工作流程需求量身打造

LightEval：Hugging Face 開源工具，提升 AI 責任感