アレン人工知能研究所(AI2)は、Contextual AIと協力して、革新的なオープンソースの大規模言語モデル(LLM)「OLMoE」を発表しました。このモデルは、優れた性能とコスト効果のバランスを図ることを目的としています。
OLMoEは、70億パラメータを持つ希薄な専門家の混合(MoE)アーキテクチャを採用しており、各入力トークンに対して1億パラメータのみを使用します。一般用の「OLMoE-1B-7B」と、指示調整用の「OLMoE-1B-7B-Instruct」の2つのバージョンがあります。
OLMoEは、他の多くのMoEモデルとは異なり、完全にオープンソースです。AI2は、他のMoEモデルへのアクセスが難しい理由として、トレーニングデータやコード、構築方法に関する透明性の欠如を指摘しています。AI2の論文では、「ほとんどのMoEモデルはクローズドソースであり、トレーニングデータや方法論に関する情報が限られているため、クローズドソースモデルと競い合えるコスト効率の高いオープンMoEの開発が妨げられています」と述べています。このアクセスの欠如は、研究者や学術機関にとって大きな障壁となります。
AI2の研究科学者、ナサン・ランバートは、OLMoEが政策開発を支援できる基盤ツールとして機能する可能性について、X(旧Twitter)で言及しました。彼は、AI2が競争力のあるオープンソースモデルをリリースすることにコミットしていると強調し、「我々は基本目標を変更することなくインフラとデータを改善しました。このモデルは本当に最先端であり、いくつかの評価での最良のモデルとしているわけではありません」と述べています。
OLMoEの開発
OLMoEの開発に際し、AI2は64の小さな専門家を利用した細かいルーティングアプローチを採用し、一度に8つのみをアクティブにします。この構成により、他のモデルと同等の性能を維持しつつ、推論コストとメモリ要件を大幅に削減しました。
OLMoEは、4,096トークンのコンテキストウィンドウをサポートするAI2の以前のオープンソースモデル「OLMO 1.7-7B」を基にしており、トレーニングデータセット「Dolma 1.7」を使用しました。また、OLMoEのトレーニングには、Common Crawl、Dolma CC、Refined Web、StarCoder、C4、Stack Exchange、OpenWebMath、Project Gutenberg、Wikipediaなどからの多様なデータセットが含まれています。
AI2によると、OLMoEは「同様のアクティブパラメータを持つすべての既存モデルを上回り、Llama2-13B-ChatやDeepSeekMoE-16Bといったより大規模なモデルをも超える」ということです。ベンチマーク結果は、OLMoE-1B-7BがMistral-7B、Llama 3.1-B、Gemma 2など、70億パラメータ以上のモデルと接近した競争を繰り広げていることを示しています。1億パラメータモデルとのテストでは、OLMoE-1B-7BがPythia、TinyLlama、さらにはAI2自身のOLMOなど、他のオープンソースモデルを著しく上回りました。
オープンソースMoEの必要性
AI2の使命は、特に人気が高まっているMoEアーキテクチャにおいて、完全にオープンソースのAIモデルへのアクセスを向上させることです。多くの開発者がMoEシステムに注目しており、MistralのMixtral 8x22BやX.aiのGrokなどがその例です。また、GPT-4におけるMoEの使用に関する憶測も広がっています。しかし、AI2とContextual AIは、多くの既存AIモデルがそのトレーニングデータやコードベースに関する包括的な透明性を欠いていることを指摘しています。
AI2は、MoEモデルの透明性の重要性を強調しており、特に総パラメータとアクティブパラメータの比率、複数の小規模専門家と少数の大規模専門家の選択、専門家の共有、適切なルーティングアルゴリズムの選定など、ユニークな設計上の課題に対処するためのオープン性が必要であると述べています。
さらに、オープンソースイニシアティブは、AIモデルにおけるオープンネスの定義を積極的に探求しており、透明性の重要性がこの分野の進展に寄与することを強調しています。