水曜日、アレンAI研究所(AI2)は、70億パラメーターのモデル「OLMo 1.7-7B」のアップデートを発表しました。この強化版は、より広範で多様なDolmaデータセットを活用しており、洗練されたトレーニングプロセスが特徴です。
OLMoは2月に初めて発表され、「真のオープンソースの最先端大規模言語モデル」として位置づけられています。このモデルは、包括的な事前トレーニングデータ、トレーニングコード、モデルの重み、評価指標を備えています。
最新のアップデートにより、OLMo 1.7-7Bはコンテキスト長を2,048トークンから4,096トークンに拡張し、洗練されたトレーニング技術とアーキテクチャの強化によりパフォーマンスが向上しています。Dolma 1.7データセットには、Dolma CCやRefined Web、StarCoder、C4、Stack Exchange、OpenWebMath、Project Gutenberg、Wikipediaなど多様な資料から取得した23兆トークンが含まれています。
従来のDolma 1.5は主にウェブデータを利用していましたが、新しいDolma 1.7は専門知識、複雑な推論、コーディングを必要とするタスクに対するモデルの能力を強化しています。AI2は、内容の質を確保するためにデデュープ(重複除去)手法を改善し、段落レベルの重複スコアから算出した既定の閾値を超える重複文書を除外しました。
Dolma 1.7では、洗練された品質フィルタリングシステムも導入されています。FastText分類器が文書の質を評価し、構造のしっかりしたコンテンツと低品質な素材を区別します。高品質なソースにはWikipedia、小規模なWeb RSSフィード、Semantic Scholarが含まれ、低品質な文書は成人向けコンテンツや誤情報サイトが該当します。この分類器は約25GBのデータで訓練されています。
さらに、OLMo 1.7は二段階のトレーニングカリキュラムを採用しています。最初に研究者たちはモデルをゼロからトレーニングし、次の段階ではDolma 1.7のキュレーションされたサブセットで追加の500億トークンを用いて段階的に学習率をゼロに減少させながらトレーニングを進めます。この高品質サブセットは、全てのWikipedia、OpenWebMath、Flanデータを含め、特定のソースを除外したうえで、残りのデータセットの割合が適切にバランスされます。
AI2によれば、これらの強化によりOLMo 1.7-7Bは、Massive Multitask Language Understanding(MMLU)ベンチマークでLlama 2-7Bを超え、GSM8KデータセットではLlama-2-13Bを上回るとしています。
アップデートされたOLMoモデルはApache 2.0の下でライセンスされ、Dolma 1.7はODC-BYの下で提供されています。両者はHugging Faceで利用可能です。