NVIDIAがオープンソースのNemotron-70Bモデルを発表、GPT-4oおよびClaude 3.5を性能で圧倒

NVIDIAがNemotron-70Bモデルをオープンソース化、AIの発展を加速

NVIDIAはこのたび、最新の強力なモデル「Nemotron-70B」をオープンソースとして公開しました。このモデルはリリース以来、AIコミュニティ内で大きな話題となり、GPT-4、GPT-4 Turbo、Claude 3.5 Sonnetを含む140以上のモデルを様々なベンチマークで上回り、OpenAIの最新モデルo1に次ぐ実績を示しています。

Nemotron-70BはLlama-3.1-70Bを基盤に構築されており、人間からのフィードバックを使った強化学習(RLHF)と、Bradley-Terryモデルや回帰分析を組み合わせた新しい混合トレーニング方法で訓練されています。公開されているトレーニングデータセットとLlama-3.1-Nemotron-70B-Rewardに基づく報酬信号を活用し、HelpSteer2-Preferenceプロンプトを使用して人間の好みにより合った応答を生成することが可能です。

LMSYS Large Model Arena Hardテストなどのベンチマーク評価では、Nemotron-70Bは85点、AlpacaEval 2 LCでは57.6点、GPT-4-Turbo MT-Benchでは8.98点を記録しました。これらの結果は、その卓越した能力を示しています。

ユーザーの評価によれば、Nemotron-70Bは複雑な質問にも優れた対応力を発揮しています。たとえば、バナナの数を計算する際、モデルは正確に分析し、正しい答えを導き出しました。89歳の有名人の死亡年月日に関しては小さな誤りがありましたが、全体的なパフォーマンスは評価に値します。

難解なプロンプトに対するモデルの結果も注目に値します。完全に合格したテストは少ないものの、初期の出力は考察を促します。月の距離や歩行可能性についての議論では、物理的観点から詳しく検討し、合理的な結論を導きました。

業界の専門家によれば、NVIDIAの強力なモデルを一貫してオープンソース化する戦略は、チップの販売促進を目指しているとのことです。モデルの複雑さが増す中、企業はトレーニング用にさらに多くのチップを注文せざるを得ず、オープンソースモデルがハードウェア販売を効果的に推進します。しかし、この戦略は、商業化や可視性の面でテクノロジー巨人と競争することが難しいスタートアップに大きなプレッシャーを与えています。利益を上げられない場合、投資を失うリスクがあります。

それでも、Nemotron-70BのオープンソースリリースはAIコミュニティに重要な価値を追加します。これはAI技術の進歩を促進し、研究者や開発者に新たな選択肢と可能性を提供します。NVIDIAのオープンソースイニシアティブは、分野に新たな活力を注入するだけでなく、高品質なオープンソースモデルの登場の基盤を築き、AIセクター内の協力的な成長を促進します。

Most people like

Find AI tools in YBX