AI2 透過多樣化數據集和兩階段課程提升開源 OLMo 模型的性能

Home AI新聞 AI2 透過多樣化數據集和兩階段課程提升開源 OLMo 模型的性能

周三，艾倫人工智慧研究院（AI2）公布了其70億參數模型OLMo 1.7-7B的更新版本。這一升級版利用了一個更廣泛且多樣化的Dolma數據集，並採用了先進的訓練過程。

OLMo最初於二月份推出，被定位為「真正的開源、尖端大型語言模型」，並提供了全面的預訓練數據、訓練代碼、模型權重和評估指標。最新更新使OLMo 1.7-7B支持的上下文長度從2048擴展到4096個標記，因改進的訓練技術和架構優化，性能得到了顯著提升。Dolma 1.7數據集共包含2300億個來自各種來源的標記，涵蓋Dolma CC、Refined Web、StarCoder、C4、Stack Exchange、OpenWebMath、Project Gutenberg和Wikipedia等資料。

新版本的Dolma 1.7取代了之前主要使用網絡數據的Dolma 1.5，增強了模型處理專業知識、複雜推理和編程任務的能力，數據來源的多樣化使其更具優勢。AI2引入了更好的去重方法，確保內容質量，移除了重複得分超過預設閾值的文件，該閾值是基於段落級重複得分計算的。

Dolma 1.7還引入了精細的質量過濾系統。FastText分類器根據文件質量對其進行評估，將結構良好的內容與低質量材料區分開來。高質量來源包括Wikipedia、小型網頁RSS源和Semantic Scholar，而低質量文件則包括成人內容和虛假信息網站。這一分類器的訓練使用了約25GB的數據。

此外，OLMo 1.7採用了兩階段的訓練課程。首先，研究人員從零開始訓練模型。在第二階段，模型使用Dolma 1.7的精選子集進行進一步訓練，這一過程中使用了額外的500億個標記，並逐漸將學習率降低至零。精選的高質量子集包括所有可能的Wikipedia、OpenWebMath和Flan數據，並排除某些來源，平衡剩餘數據集的比例。

AI2聲稱這些改進使得OLMo 1.7-7B在大規模多任務語言理解（MMLU）基準測試中超越了Llama 2-7B，並在GSM8K數據集上超過了Llama-2-13B。

更新後的OLMo模型是基於Apache 2.0許可證，Dolma 1.7則根據ODC-BY提供。兩者現在均可在Hugging Face上獲取。

介紹 Cisco Hypershield：迎接 AI 時代的革命性安全方案

注意，Boston Dynamics！Mentee Robotics 推出下一代「以 AI 為先」的機器人