数週間前にGrok-1をオープンソース化したエロン・マスクのxAIが、来週にはその改良版であるGrok-1.5を発表する予定です。Grok-1.5は推論力と問題解決能力を高め、OpenAIのGPT-4やAnthropicのClaude 3などの確立したモデルに近づけることを目指しています。しかし、長い文脈を処理できる一方で、最大100万トークンのコンテキストウィンドウをサポートするGemini 1.5 Proには及びません。
Grok-1.5の新機能
Grok-1は昨年11月に発表され、「銀河ヒッチハイカーガイド」にインスパイアされたもので、ユーザーが立場にかかわらず知識を追求する手助けをするために設計されています。過去のベンチマークでは、Grok-1はLlama-2-70BやGPT-3.5を上回る性能を示しました。
Grok-1.5では、主要な指標での顕著な改善が報告されています。テストでは、MATHベンチマークで50.6%、GSM8Kベンチマークで90%、HumanEvalベンチマークで74.1%を達成し、コーディングや数学関連のタスクにおいて大きな向上を示しました。
さらに、Grok-1.5はMMLUベンチマークで81.3%を達成し、Grok-1の73%から大きく改善されています。最大128,000トークンのコンテキストウィンドウを利用することで、前世代の16倍もの情報を処理可能となり、長文の分析や要約をしっかりと行いながら、効果的な命令の実行能力を維持しています。
競争における位置づけ
Grok-1.5は、Grok-1を上回るだけでなく、Gemini 1.5 Pro、GPT-4、Claude 3などのリーダーモデルとの性能差を縮めています。例えば、MMLUベンチマークにおける81.3%は最近発表されたMistral Largeを上回っていますが、Gemini 1.5 Proの83.7%、GPT-4の86.4%、Claude 3 Opusの86.8%には及びません。また、GSM8KベンチマークでもGoogle、OpenAI、Anthropicの提供するモデルにはわずかに及ばない結果となっています。特に、HumanEvalではClaude 3 Opusを除くすべてのモデルを上回っています。
テクノロジーコンサルタントのブライアン・ロエムリー氏は、現在トレーニング中のGrok-2がリリースされると、多くの指標においてOpenAIを超える最も強力なLLM AIプラットフォームとなるだろうと予測しています。
Grok-1.5の利用可能性
xAIは、来週Grok-1.5を展開する計画です。最初はGrokチャットボットの早期テスターやXプラットフォーム(旧Twitter)のユーザーから始まります。新機能を段階的に導入し、「楽しみモード」の可能性も含めながら、徐々にアクセスを拡大していく予定です。
マスク氏の最初のGrokのXでのリリースは、GrokとXプラットフォームの採用を促進するための戦略の一部でした。Grokは現在、月額16ドルの「プレミアム+」サブスクリプションを通じて利用可能ですが、マスク氏は最近、8ドルのプレミアムサブスクライバーでもアクセスできるようになると発表しました。さらに、特定のサブスクリプションレベルの確認済みフォロワーには、Grokへの無料アクセスを含むプレミアム特典が提供される予定です。