最近、AlibabaはQwen1.5Siriーズの最初の1100億パラメータモデル「Qwen1.5-110B」をオープンソースとして公開しました。この取り組みは、Alibabaの人工知能における革新力を示すだけでなく、中国企業が大規模言語モデルの開発において大きな進展を遂げていることを強調しています。
Qwen1.5-110Bモデルは、トランスフォーマー・デコーダーアーキテクチャを採用し、Grouped Query Attention(GQA)技術を取り入れることで、推論の効率を向上させています。最大32,000トークンのコンテキスト長をサポートし、英語、中国語、フランス語、スペイン語、ドイツ語、ロシア語、日本語、韓国語、ベトナム語などの複数の言語を処理する能力があります。
性能評価では、Qwen1.5-110BがMetaのLlama3-70Bと強く競合し、プレトレーニング手法に大きな変更を加えることなくその競争力を維持しています。Alibabaは、このモデルの性能向上は主にそのスケールの拡大に起因するとしています。この成果は、Alibabaのモデル設計および最適化における専門知識を反映しており、中国における大規模言語モデルの開発に新たな活力を注ぎ込んでいます。
さらに、Qwen1.5-110Bはチャット評価でも優れた結果を示しており、MT-BenchやAlpacaEval 2.0の評価において前の72Bモデルに対して大きな優位性を発揮しています。これは、より大きな基盤言語モデルがチャットモデルの性能を大きく向上させることができることを強く示しています。
Alibabaは、Qwen1.5-110BがSiriーズ最大のモデルであり、1000億パラメータを超える初のモデルであると強調しています。この成果は、大規模言語モデル分野でのAlibabaのリーダーシップを固めるだけでなく、グローバルAIの舞台における中国企業の声を高めることにも貢献します。
AI技術の進展が続く中、大規模言語モデルは多くのテクノロジー企業にとって焦点となっています。Qwen1.5-110Bのオープンソースリリースは、開発者にとって優れたツールを提供し、AI技術の普及と応用を促進します。
今後、中国企業が大規模言語モデルの分野でさらなるブレイクスルーを生み出し、革新的なアイデアでAI技術の発展をさらに豊かにしていくことが期待されます。