Nous Researchは、今月、オープンソースのLlama 3.1バリアント・Hermes 3を発表し、大きな話題を呼びました。この小規模な研究チームは「パーソナライズされた、制約のないAI」モデルの開発に取り組んでおり、新たな革新技術「DisTrO(インターネットを介した分散トレーニング)」を発表しました。この新しいオプティマイザーは、AIモデルのトレーニング中、GPU(グラフィックス処理装置)間のデータ転送を大幅に削減します。
DisTrOは、世界中の個人や機関が一般のインターネット接続を通じて、高度なAIモデルを協力してトレーニングすることを可能にし、大企業によるトレーニングプロセスの独占を排除します。最近の技術論文では、DisTrOが人気のあるAll-Reduceトレーニングアルゴリズムと比較して、857倍の効率向上を実現したことが明らかにされています。また、データ伝送量を74.4ギガバイトからわずか86.8メガバイトにまで減少させ、ほとんどパフォーマンスの低下を伴わずにトレーニングを進めることができます。これらの結果は、彼らの研究論文の下記の表に要約されています。
最終的に、DisTrOは、強力なAIモデルのトレーニングへのアクセスを民主化し、企業による障壁なしに多くの人々が探求と実験を行えるようにする可能性を秘めています。
AIトレーニングの課題:高いハードウェア要求
すでに述べたように、生成AIブームにおいてNvidiaのGPUは非常に需要が高まっています。これらの高価なグラフィックスカードは、効率的かつ迅速なAIトレーニングに必要な並列処理能力を提供します。トレーニングプロセスは、トレーニングデータセットから得た知見を共有するために、GPUのクラスターの通信に大きく依存しています。
この「インターGPU通信」は、遅延を最小限にし、スループットを最大化するために、精密に設計されたGPUクラスターを必要とします。そのため、Teslaのような企業は、数千のGPUを収容する「スーパークラスター」に物理的に投資しています。
これらの厳しい要件により、生成AI、特に最も高度なモデルのトレーニングは資本集約的な作業となり、主にTesla、Meta、OpenAI、Microsoft、Google、Anthropicといった資金力のある企業にのみアクセス可能です。
これらの組織はそれぞれ独自のトレーニングメソッドを持っていますが、一般的には似たようなハードウェアを使用し、AIトレーニングプロセスを厳しく管理しています。これが、新規参入者やカジュアルな開発者にとって、同様のパラメータを持つモデルで競争するのを難しくしています。
しかし、Nous Researchは、誰もが無制限にカスタマイズできる、アクセス可能で強力なAI開発を提唱することで、これに対抗しています。
DisTrOの特徴
従来のAIトレーニング手法では、複数のGPU間で全体の勾配を同期し、高帯域幅接続に依存する必要があります。対照的に、DisTrOは通信オーバーヘッドを4から5桁のオーダーで削減します。
この効率を実現するための具体的なアルゴリズムは完全には明かされていませんが、著者たちは近く、さらなる詳細を共有する予定です。この削減は、アモチゼーション分析に依存せず、収束速度を損なうことなく達成されたため、大規模モデルをより遅いインターネット接続(ダウンロード100 Mbps、アップロード10 Mbps)でトレーニングできることを可能にしました。
研究チームは、MetaのLlama 2(1.2億パラメータの大規模言語モデル)を使用してDisTrOをテストしました。結果は、従来の方法に比べて類似のトレーニングパフォーマンスを示し、データ転送を大幅に削減しました。チームは、このモデルがDisTrOで効果的な最小サイズであるとし、帯域幅の削減がモデルサイズとどのようにスケールするのか不確実だと述べています。
予備テストの結果、事前トレーニング中に1000倍から3000倍、事後トレーニング中に最大10000倍の帯域幅削減の可能性が示され、パフォーマンスの目立った劣化はありませんでした。また、DisTrOはStable Diffusionや類似の画像生成サービスのような大規模な拡散モデルをトレーニングするためにも活用できると推測されています。
GPUの継続的な必要性
DisTrOは依然としてGPUを必要としますが、それを同じ施設に集中させず、世界中に分散して運用できることが特徴です。具体的には、32のH100 GPUを使用し、Distributed Data Parallelism(DDP)戦略を利用して各GPUに全モデルをVRAM内に配置することで評価が行われました。このフレームワークにより、DisTrOの機能の厳格なテストが可能となり、AdamW+All-Reduceの収束率に匹敵することを証明しつつ、通信ニーズを大幅に削減しました。
DisTrOは従来のトレーニング手法を刷新し、モデルの質を犠牲にすることなく大規模な分散トレーニングのためのスケーラブルなソリューションを提供します。高速接続の必要性を低減することで、一般的なインターネットサービスを利用するユーザー同士でも、分散したネットワークで共同モデル訓練を実現します。
研究報告は、DisTrOがフェデレーティッドラーニングや分散トレーニングにもたらす影響をさらに詳しく掘り下げています。その効率性は、既存のインフラを最適化し、大規模データセンターへの依存を軽減することで、AIトレーニングの環境への影響を緩和する可能性もあります。
これらの革新により、大規模モデルのトレーニングが中央集権的でリソース集約型のデータセンターから、より分散的で協力的な方法に移行することが期待されます。
Nous ResearchとDisTrOの今後
研究チームは、DisTrOの可能性を探求する仲間を歓迎しています。予備レポートや追加資料はGitHubで公開されており、彼らはこの革新的な技術を洗練させ、拡張するための共同研究者を積極的に募集中です。
AIインフルエンサーの@kimmonismus氏はこの研究を革命的な可能性があると称賛し、「これはすべてを変えるかもしれない!」と語っています。
DisTrOによって、Nous ResearchはAIトレーニング能力を高めるだけでなく、画期的な進展を促進するより包括的な研究生態系を育むことを目指しています。