最近、AIスタートアップのGradientとクラウドコンピューティングプラットフォームのCrusoeが提携し、Llama-3モデルのコンテキストウィンドウを驚異の100万トークンに拡張しました。コンテキストウィンドウとは、大規模言語モデル(LLM)が扱える入力および出力トークンの数を指し、さまざまなアプリケーションで重要な役割を果たします。テクノロジー企業や主要なAIラボは、自社のLLMのコンテキストウィンドウを強化するため激しい競争を繰り広げています。数ヶ月の間に、トークンのサポートは数千から100万以上に急増しました。しかし、AnthropicのClaude(20万トークン)、OpenAIのGPT-4(12.8万トークン)、GoogleのGemini(100万トークン)などの広範なコンテキストウィンドウを持つモデルは、ほとんどがプライベート環境で提供されています。
オープンソースの長コンテキストLLMの必要性
Gradientは、企業のクライアントがLLMを業務に統合するのを支援しています。Llama-3のリリース前から、同社は顧客プロジェクトの中で重要なコンテキストの制限に直面していました。たとえば、プログラミングのためのコーディングコパイロットは通常、短いコードの断片を生成しますが、企業はこれらの機能を進化させて全体のコードモジュールを開発することを目指しています。「これを実現するためには、言語モデルが全体のコードベースや複数のGitHubリポジトリを参照する必要があります」とGradient AIの Chief Scientist であるLeo Pekelisは説明します。コードベースを部分的に提供することは遅く、不正確になる恐れがあります。
「全体のコードベースを言語モデルのコンテキストとして入力できる能力は、多くの問題を解決し、より正確で効率的なソリューションを可能にします」とPekelisは付け加えました。多くの企業は、データを第三者に送信する制約により、GeminiやClaudeのようなプライベートモデルを利用できないため、Gradientチームは独自の100万トークンのオープンソースモデルを開発することにしました。
オープンリサーチの貢献
LLMの商業化は、AIラボが発見や研究を共有する意欲を低下させています。企業はコンテキストウィンドウを拡張し続けていますが、モデルを最適化するために使用したコード、データ、戦略を開示することには消極的です。それでも、オープンリサーチコミュニティは知識を共有し、モデルの向上に取り組んでいます。Gradientは、世界中の大学や研究機関の研究成果を大いに活用しました。
MetaのLlama 3(デフォルトのコンテキストウィンドウは8,000トークン)の80億および700億パラメータ版を使用し、バークレーAIリサーチからの手法を実装しました。初期のコードはシンガポールのオープンソースプロジェクトから、主要な数式は上海のラボから取得されました。Nvidiaのベンチマークに対してパフォーマンス評価を実施し、Geminiのような他の長コンテキストLLMと比較しました。「この進歩の多くは、オープンな研究コミュニティなしには実現不可能でした」とPekelisは指摘しました。「オープンリサーチは私たちの作業に大きな影響を与えています。」
計算課題の克服
計算リソースへのアクセスは、LLM研究の主な課題です。ほとんどのAIラボは、大規模なGPUクラスターに依存しています。GradientはCrusoeと提携し、コスト効率のよいモデル開発を探りました。「私たちが[Nvidia] L40Sクラスターを立ち上げる際のタイミングは非常に素晴らしいものでした」とCrusoeのシニアデベロッパーアドボケイトであるEthan Petersenは述べています。「これらのチップが推論だけでなく、広範なトレーニングを可能にすることを示すことを目指しました。」
大手テック企業は、数万ドルの費用がかかるA100、H100、今後登場するB100などの高性能GPUを巡って競争しています。Crusoeは、これらのGPUを提供し、クライアント向けにカスタマイズソリューションを提供しています。Gradientと密に連携し、L40Sクラスターを調整することで、トレーニングコストを大幅に削減しました。「Gradientのようなパートナーとの取り組みは、彼らのニーズに基づいた最も効率的な計算ソリューションを提供することに焦点を当てており、この場合、L40Sが理想的でした」とCrusoeの最高製品責任者Patrick McGregorは述べました。
モデル評価手法
長コンテキストウィンドウを評価するための重要なベンチマークの1つは、「干し草の中の針」テストであり、特定の情報が長いテキストシーケンス内でどのように評価されるかを示します。「私たちのモデルは、このテストでほぼ完璧なパフォーマンスを達成し、2百万のコンテキスト長まで機能します。このパフォーマンスはGemini 1.5 Proに匹敵するものです」とPekelisは述べています。
とはいえ、「干し草の中の針」テストだけではモデルの全体的なコンテキストパフォーマンスを十分に表現できないかもしれません。チームは、複数の「干し草の中の針」または対立する情報が導入されるアドバーサリアルなテストなど、より複雑な評価も行いました。NvidiaのRULERベンチマークを使用してモデルを評価し、長コンテキスト言語モデルのテストに特化した13のタスクを含んでおり、変動するシーケンス長と複雑さを考慮しています。さらに、チームは、プロンプトに数百または数千の例を含めることで、新しいタスクに動的に適応できる多ショットのコンテキスト学習能力を向上させています。
長コンテキストLLMのエンタープライズアプリケーション
Pekelisは、長コンテキストを持つオープンモデルが、LLMベースのアプリケーションを構築しようとする企業や開発者にとってのギャップを埋めると考えています。「現在、個々のAIアプリケーションとエンタープライズソリューションとの間には顕著な格差があります」と彼は指摘しました。「言語モデルがコンテキストウィンドウ内で多くの情報を処理できるようになることで、新たな可能性が広がります。」
長いコンテキストは、複数の言語モデルが共同で動作するエージェンティックなシステムを強化することができ、より少ないリクエストで多くの情報を処理します。また、長コンテキストLLMは、スタイル模倣などの複雑なデータ処理タスクを簡素化します。「さまざまなソースからデータを収集し、私の書き方を模倣するためのモデルをトレーニングする代わりに、過去のメールをすべて入力すれば、モデルは私のように書くことを学びます」とPekelisは説明しました。
さらに、広範なコンテキストウィンドウを持つLLMは、リトリーバル強化生成(RAG)への依存を減少させる可能性があります。理論的には、無限のコンテキストを持つLLMは、すべての文書をプロンプトに組み込み、クエリごとに最も関連性の高い部分を選択できますが、コンテキストの制約により、新しいチャットセッションごとに再クエリが必要です。拡張されたコンテキストウィンドウは、プロトタイプや概念実証を作成するための障壁を下げ、製品チームが言語モデルの可能性を把握するのを助けます。「顧客に可能性を教育することが重要な初期ステップです」とPekelisは結論付けました。「プロトタイプや初期の例を開発することは、企業にとっての変革の可能性を示します。」