AI2 透過多樣化數據集和兩階段課程提升開源 OLMo 模型的性能

周三,艾倫人工智慧研究院(AI2)公布了其70億參數模型OLMo 1.7-7B的更新版本。這一升級版利用了一個更廣泛且多樣化的Dolma數據集,並採用了先進的訓練過程。

OLMo最初於二月份推出,被定位為「真正的開源、尖端大型語言模型」,並提供了全面的預訓練數據、訓練代碼、模型權重和評估指標。最新更新使OLMo 1.7-7B支持的上下文長度從2048擴展到4096個標記,因改進的訓練技術和架構優化,性能得到了顯著提升。Dolma 1.7數據集共包含2300億個來自各種來源的標記,涵蓋Dolma CC、Refined Web、StarCoder、C4、Stack Exchange、OpenWebMath、Project Gutenberg和Wikipedia等資料。

新版本的Dolma 1.7取代了之前主要使用網絡數據的Dolma 1.5,增強了模型處理專業知識、複雜推理和編程任務的能力,數據來源的多樣化使其更具優勢。AI2引入了更好的去重方法,確保內容質量,移除了重複得分超過預設閾值的文件,該閾值是基於段落級重複得分計算的。

Dolma 1.7還引入了精細的質量過濾系統。FastText分類器根據文件質量對其進行評估,將結構良好的內容與低質量材料區分開來。高質量來源包括Wikipedia、小型網頁RSS源和Semantic Scholar,而低質量文件則包括成人內容和虛假信息網站。這一分類器的訓練使用了約25GB的數據。

此外,OLMo 1.7採用了兩階段的訓練課程。首先,研究人員從零開始訓練模型。在第二階段,模型使用Dolma 1.7的精選子集進行進一步訓練,這一過程中使用了額外的500億個標記,並逐漸將學習率降低至零。精選的高質量子集包括所有可能的Wikipedia、OpenWebMath和Flan數據,並排除某些來源,平衡剩餘數據集的比例。

AI2聲稱這些改進使得OLMo 1.7-7B在大規模多任務語言理解(MMLU)基準測試中超越了Llama 2-7B,並在GSM8K數據集上超過了Llama-2-13B。

更新後的OLMo模型是基於Apache 2.0許可證,Dolma 1.7則根據ODC-BY提供。兩者現在均可在Hugging Face上獲取。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles