獣を育てる：拡大するデータ市場がLLMの止まらぬ需要を支える方法

Home AIニュース獣を育てる：拡大するデータ市場がLLMの止まらぬ需要を支える方法

先週、私はマーク・ザッカーバーグが語ったMetaのAI戦略に関する見解を取り上げました。その中で特筆すべき点は、Llamaモデルを訓練するための広範かつ常に拡張されている内部データセットの存在です。ザッカーバーグは、FacebookやInstagramには「何百億もの公開画像と何十億もの公開動画が共有されている」と述べ、Common Crawlデータセットを上回る規模であることを強調しました。また、ユーザーはこれらのプラットフォーム上で大量の公開テキスト投稿を行っています。

AIのデータ需要

しかし、Meta、OpenAI、Anthropicなどのモデルのトレーニングに必要なデータは、今日の大規模言語モデル（LLM）のデータ要求を理解するための出発点に過ぎません。LLMをさまざまなアプリケーションで使用する際の推論への継続的な需要が、データ消費の途切れないサイクルを生み出しています。これは、AIモデルが効果的に機能するためにデータを絶えず収集する様子を、古典的ゲームの「ハングリー・ハングリー・ヒッポス」に例えることができます。

効果的なAI推論のための特定データセット

Nomad Dataの創設者兼CEOであるブラッド・シュナイダーは、「[推論は]より大きな市場であり、多くの人がその重要性に気付いていない」と強調しました。Nomad Dataは、2500を超えるデータベンダーと特定のデータセットを必要とする企業をつなぐデータ発見プラットフォームとして機能しています。Nomadはデータブローカーとしてではなく、企業が自然言語でデータを検索できるようにします。例えば、ユーザーは「米国で毎月建設されているすべての屋根のデータフィードを求める」とリクエストすることがあります。シュナイダーによれば、多くのユーザーは必要なデータセットの正確な名称を知らないため、NomadのLLMが関連するベンダーを特定する手助けをします。

即時データマッチング

需要と供給の迅速なマッチングは、プラットフォームの効果を示しています。シュナイダーは、Nomadにデータを掲載した保険会社の例を挙げました。その会社がほぼ即座に、詳細な交通事故データを求める企業からのリクエストを受けましたが、その情報が「保険データ」としてカテゴライズされていることに気づいていませんでした。「これが一種の魔法です」とシュナイダーは語りました。

継続的なデータ供給の重要性

トレーニングデータは重要ですが、シュナイダーはモデルのトレーニングは頻繁には行われず、推論は継続的に行われる—時には一分間に数千回行われることもあると指摘しました。この新鮮なデータの継続的な需要は、生成AIを活用する企業にとって極めて重要です。「面白いことをするためには、何かを供給する必要があります」と彼は説明しました。

正しいデータ「フード」を見つけることは、大企業にとっていまだ課題です。最初は内部データを活用することが重要ですが、高品質な外部データセットの導入は歴史的にも困難でした。組織は、数百万のPDFといった膨大なアーカイブから有用な情報を抽出するのに苦労してきました。しかし、現在はLLMが消費者記録や政府の申請など、さまざまなソースからテキストデータを迅速に分析することが可能です。

未開発データの価値を解放する

シュナイダーはこの変革を「埋もれた宝物の発見」に例えました。一度は無価値と見なされていたデータが、今や極めて価値のあるものとなっています。さらに、データはLLMのトレーニングをカスタマイズするためにも不可欠です。たとえば、日本の領収書を認識するモデルを開発するには、その領収書のデータセットが必要です。同様に、サッカー場の画像内で広告を特定するモデルを作成するには、関連する動画のデータセットが求められます。

メディア企業によるデータの収益化

大手メディア企業も、LLM企業にデータをライセンス提供し始めています。OpenAIは最近、Axel Springerと提携し、ニューヨークタイムズとの交渉は訴訟に発展しました。Nomad Dataは、メディアや他の企業と積極的に連携し、データベンダーネットワークを拡大しています。シュナイダーは、Nomadが自動車メーカーから保険会社まで多くの法人と連携し、そのデータをプラットフォームに掲載していると述べました。

LLMデータへの継続的な需要

要するに、LLMデータの供給チェーンは自己強化的なループを形成しています。Nomad DataはLLMを活用して新しいデータベンダーを特定し、その後、ユーザーが必要とするデータの発見を支援します。このデータはLLM APIと共にトレーニングと推論に利用されます。「LLMは私たちのビジネスにとって非常に重要です」とシュナイダーは強調しました。「私たちがより多くのテキストデータを収集することで、これらの多様なデータセットを活用する方法を学び続けています。」

AIのトレーニングデータは市場全体のごく一部であり、LLMの推論やカスタマイズトレーニングが最も刺激的な機会を提供しています。シュナイダーはこう述べました。「今では、以前は価値がなかったデータを取得できるようになり、これらの新しいテクノロジーのおかげでビジネスの構築に非常に重要です。」

人材管理の革新：ADP AssistによるAIの進化

AI搭載のリアルタイムチャット翻訳で言語の壁を克服するRoblox

Most people like

Seaart.ai

11.5M

AI生成イラストの力を解き放とう私たちの革新的なプラットフォームで、AIイラスト生成の魅力的な世界を発見してください。ここでは、創造性と最先端技術が融合し、ユーザーが驚くべきイラストを簡単に作成できます。プロのアーティストやデザイナー、または創造的な側面を探求したい方も、私たちのAI駆動ツールを使えばアイデアを形にする無限の可能性が広がります。今すぐ参加して、ビジュアル作成の方法を変革しましょう！

AI AI Anime Art

Choppity

46K

AI駆動のクリップがポッドキャストのコンテンツに命を吹き込み、革新的な音声スニペットがリスニング体験を向上させます。重要な瞬間や洞察に満ちた議論を際立たせることで、聴衆がお気に入りのポッドキャストとより簡単に関わることができます。短いハイライトでも深い知識でも、AIによるポッドキャストクリップは、音声ストーリーテリングの最高峰への入り口です。

AI動画編集 AI Podcast Assistant

EcoLink

5.9K

環境保全へのアプローチを革新する、AIとブロックチェーンを活用した持続可能性プラットフォームを紹介します。人工知能とブロックチェーン技術の力を借りて、このプラットフォームは透明性の向上、効率の増加、さまざまな産業における持続可能なプラクティスの促進を目指します。最先端の技術を通じて、持続可能性の未来を共に変革しましょう。

持続可能性の報酬 AI Analytics Assistant

FAT2FIT

5.9K

FAT2FITのご紹介：あなたの独自のフィットネス目標に合わせたパーソナライズされたボディトランスフォーメーションを実現する革新的なAI駆動プラットフォームです。最先端の技術と専門家のサポートにより、理想の体型をこれまで以上に効果的に手に入れるお手伝いをします。

ボディトランスフォーメーション Other

Find AI tools in YBX