獣を育てる:拡大するデータ市場がLLMの止まらぬ需要を支える方法

先週、私はマーク・ザッカーバーグが語ったMetaのAI戦略に関する見解を取り上げました。その中で特筆すべき点は、Llamaモデルを訓練するための広範かつ常に拡張されている内部データセットの存在です。ザッカーバーグは、FacebookやInstagramには「何百億もの公開画像と何十億もの公開動画が共有されている」と述べ、Common Crawlデータセットを上回る規模であることを強調しました。また、ユーザーはこれらのプラットフォーム上で大量の公開テキスト投稿を行っています。

AIのデータ需要

しかし、Meta、OpenAI、Anthropicなどのモデルのトレーニングに必要なデータは、今日の大規模言語モデル(LLM)のデータ要求を理解するための出発点に過ぎません。LLMをさまざまなアプリケーションで使用する際の推論への継続的な需要が、データ消費の途切れないサイクルを生み出しています。これは、AIモデルが効果的に機能するためにデータを絶えず収集する様子を、古典的ゲームの「ハングリー・ハングリー・ヒッポス」に例えることができます。

効果的なAI推論のための特定データセット

Nomad Dataの創設者兼CEOであるブラッド・シュナイダーは、「[推論は]より大きな市場であり、多くの人がその重要性に気付いていない」と強調しました。Nomad Dataは、2500を超えるデータベンダーと特定のデータセットを必要とする企業をつなぐデータ発見プラットフォームとして機能しています。Nomadはデータブローカーとしてではなく、企業が自然言語でデータを検索できるようにします。例えば、ユーザーは「米国で毎月建設されているすべての屋根のデータフィードを求める」とリクエストすることがあります。シュナイダーによれば、多くのユーザーは必要なデータセットの正確な名称を知らないため、NomadのLLMが関連するベンダーを特定する手助けをします。

即時データマッチング

需要と供給の迅速なマッチングは、プラットフォームの効果を示しています。シュナイダーは、Nomadにデータを掲載した保険会社の例を挙げました。その会社がほぼ即座に、詳細な交通事故データを求める企業からのリクエストを受けましたが、その情報が「保険データ」としてカテゴライズされていることに気づいていませんでした。「これが一種の魔法です」とシュナイダーは語りました。

継続的なデータ供給の重要性

トレーニングデータは重要ですが、シュナイダーはモデルのトレーニングは頻繁には行われず、推論は継続的に行われる—時には一分間に数千回行われることもあると指摘しました。この新鮮なデータの継続的な需要は、生成AIを活用する企業にとって極めて重要です。「面白いことをするためには、何かを供給する必要があります」と彼は説明しました。

正しいデータ「フード」を見つけることは、大企業にとっていまだ課題です。最初は内部データを活用することが重要ですが、高品質な外部データセットの導入は歴史的にも困難でした。組織は、数百万のPDFといった膨大なアーカイブから有用な情報を抽出するのに苦労してきました。しかし、現在はLLMが消費者記録や政府の申請など、さまざまなソースからテキストデータを迅速に分析することが可能です。

未開発データの価値を解放する

シュナイダーはこの変革を「埋もれた宝物の発見」に例えました。一度は無価値と見なされていたデータが、今や極めて価値のあるものとなっています。さらに、データはLLMのトレーニングをカスタマイズするためにも不可欠です。たとえば、日本の領収書を認識するモデルを開発するには、その領収書のデータセットが必要です。同様に、サッカー場の画像内で広告を特定するモデルを作成するには、関連する動画のデータセットが求められます。

メディア企業によるデータの収益化

大手メディア企業も、LLM企業にデータをライセンス提供し始めています。OpenAIは最近、Axel Springerと提携し、ニューヨークタイムズとの交渉は訴訟に発展しました。Nomad Dataは、メディアや他の企業と積極的に連携し、データベンダーネットワークを拡大しています。シュナイダーは、Nomadが自動車メーカーから保険会社まで多くの法人と連携し、そのデータをプラットフォームに掲載していると述べました。

LLMデータへの継続的な需要

要するに、LLMデータの供給チェーンは自己強化的なループを形成しています。Nomad DataはLLMを活用して新しいデータベンダーを特定し、その後、ユーザーが必要とするデータの発見を支援します。このデータはLLM APIと共にトレーニングと推論に利用されます。「LLMは私たちのビジネスにとって非常に重要です」とシュナイダーは強調しました。「私たちがより多くのテキストデータを収集することで、これらの多様なデータセットを活用する方法を学び続けています。」

AIのトレーニングデータは市場全体のごく一部であり、LLMの推論やカスタマイズトレーニングが最も刺激的な機会を提供しています。シュナイダーはこう述べました。「今では、以前は価値がなかったデータを取得できるようになり、これらの新しいテクノロジーのおかげでビジネスの構築に非常に重要です。」

Most people like

Find AI tools in YBX