大規模言語モデル(LLM)におけるサイズの影響
大規模言語モデル(LLM)のサイズは、そのモデルが効果的に動作できる範囲を決定するため、非常に重要です。Stability AIは、安定した拡散によるテキストから画像への生成AI技術で知られ、2024年に最小のモデル「Stable LM 2 1.6B」を発表しました。このテキスト生成モデルは、2023年4月に3億および7億パラメータのバージョンとして初めて登場しました。1.6Bモデルは、Stability AIが2024年にリリースした2番目のモデルであり、先にリリースされた「Stable Code 3B」の後に続くものです。
コンパクトなStable LM 2モデルの紹介
新たに登場したStable LM 2 1.6Bは、開発者の参入障壁を低くし、生成AIエコシステムへの参加を加速することを目的としています。このコンパクトでありながら強力なモデルは、英語、スペイン語、ドイツ語、イタリア語、フランス語、ポルトガル語、オランダ語の7言語で多言語テキスト生成をサポートしています。アルゴリズムによる言語モデルの最近の進展を活用し、速度とパフォーマンスの最適なバランスを実現しています。
Stability AIの言語チームの責任者、カルロス・リケルメは、「一般的に、同様のデータで訓練された大規模モデルは、小規模モデルよりもパフォーマンスが優れています。しかし、モデルが改善されたアルゴリズムを実装し、高品質なデータで訓練されると、小規模モデルが古い大規模モデルを上回ることがよくあります」と述べています。
小さなモデルが大きなモデルを上回る理由
Stability AIによると、Stable LM 2 1.6Bは、MicrosoftのPhi-2(2.7B)、TinyLlama 1.1B、Falcon 1Bなどの2億未満のパラメータを持つ多くの小規模言語モデルをさまざまなベンチマークで上回っています。また、Stability AI自身の古いStable LM 3Bモデルをも超えています。
リケルメは、「Stable LM 2 1.6Bは、わずか数ヶ月前に訓練された一部の大型モデルよりも優れた性能を発揮しています。コンピュータ技術と同様に、モデルは時間と共に小型化され、より洗練されています」と述べています。
限界の認識
Stable LM 2 1.6Bは素晴らしい能力を持っていますが、そのサイズには限界もあります。Stability AIは、「小型で低容量の言語モデルの特性上、Stable LM 2 1.6Bは高い幻覚率や潜在的な有害な言語など、一般的な問題が発生する可能性があります」と警告しています。
データトレーニングの透明性と向上
Stability AIは、数ヶ月にわたり、より小型で強力なLLMオプションに取り組んできました。2023年12月には、初版より小型化されたStableLM Zephyr 3Bモデルを発表し、パフォーマンスを向上させました。
リケルメは、今回のStable LM 2モデルが英語以外の6言語の多言語文書を取り入れ、より多くのデータを活用していることを説明しました。データ提供の順序がトレーニング結果に与える重要性を強調し、さまざまなデータタイプを異なるトレーニング段階で利用することで成果を向上させる可能性があると示唆しています。
開発をさらに促進するため、Stability AIはこれらのモデルを事前訓練された形式と微調整された形式で提供します。また、研究者たちが「事前訓練クールダウン前の最後のモデルチェックポイント」と呼ぶものも提供します。
リケルメは、「私たちの目標は、開発者にイノベーションを促すツールを提供することです」と伝えています。「特定の実験的な半調理モデルを提供しています。」
彼はトレーニングプロセスについて詳しく説明し、モデルが逐次更新されることで性能が向上することを述べました。初期モデルは知識がなく、後のバージョンはデータからの洞察を蓄積します。しかし、リケルメはまた、モデルがトレーニングの最後に向かうにつれ、柔軟性が低下する可能性があるとも指摘しました。
「私たちは、異なるタスクやデータセットに適応させるために、ほぼ最終的なトレーニング状態でモデルを提供することにしました。成功を保証することはできませんが、新しいツールを革新的に活用する皆さんの創造力を信じています。」