餵養數據之獸：蓬勃發展的數據市場如何驅動對大型語言模型（LLM）不斷增長的需求

Home AI新聞餵養數據之獸：蓬勃發展的數據市場如何驅動對大型語言模型（LLM）不斷增長的需求

上週，我討論了馬克·扎克伯格對Meta AI策略的見解，突顯出一個顯著的優勢：一個龐大且持續擴大的內部數據集，這使其Llama模型得以訓練。祖克柏指出，Facebook和Instagram擁有「數千億張公開分享的圖片和數百億段公開視頻」，其規模超過Common Crawl數據集。用戶還在這些平台上分享大量的公共文本帖子。

AI對數據的無盡需求

然而，對於Meta、OpenAI或Anthropic等公司的模型訓練來說，數據只是一個起點，了解當今大型語言模型（LLMs）的數據需求才更為關鍵。持續的推斷需求—利用LLMs進行各類應用—造就了不斷消耗數據的循環。這有點類似於經典遊戲「饑餓饑餓河馬」，AI模型不斷收集數據以確保高效運行。

有效AI推斷的特定數據集

Nomad Data創始人兼CEO布拉德·施奈德強調，「[推斷]是更大的市場，我認為人們並未意識到這一點。」Nomad Data作為數據發現平台，將超過2,500個數據供應商與尋求特定數據集以支持LLM推斷需求的公司對接。Nomad並不是數據經紀人，而是幫助企業以自然語言搜索數據。例如，用戶可能請求「每月在美國進行施工的每一個屋頂的數據流」。施奈德解釋說，許多用戶對所需數據集的精確名稱並不熟悉。Nomad的LLMs幫助識別能提供數據的相關供應商。

瞬間匹配數據需求

需求和供應的快速匹配展示了平台的有效性。施奈德回憶起一家保險公司將數據上傳至Nomad：幾乎立即，另一家公司搜索詳細的車禍數據，卻不知道這些信息屬於「保險數據」。他表示，「這就是所謂的魔力。」

持續數據供應的重要性

施奈德強調，雖然訓練數據至關重要，但模型訓練不頻繁，而推斷則持續進行—有時每分鐘達到數千次。這種對新鮮數據的持續需求對利用生成式AI的公司尤為重要，特別是在創造有價值的洞見方面。他解釋，「你需要提供某些東西，才能讓它做出有趣的表現。」大企業挑選正確的數據「食物」仍然是一大挑戰。最初，利用內部數據至關重要，但引入高質量的外部數據集歷來困難。組織經常難以從海量檔案中提取有用信息，例如數百萬份PDF。幸運的是，LLMs如今能夠快速分析來自各種來源的文本數據，包括消費者記錄和政府檔案。

釋放未開發數據的價值

施奈德將這一變革比喻為發現「埋藏的寶藏」。曾被視為無用的數據現在變得極具價值。此外，數據對於定制LLM訓練至關重要。例如，開發一個辨識日本收據的模型，需要相應的收據數據集。同樣，創建一個辨識足球場圖像中廣告的模型需要相關視頻數據集。

媒體公司為數據變現

大型媒體公司也開始將數據授權給LLM公司。OpenAI最近與Axel Springer達成合作，而與《紐約時報》的談判則以訴訟結束。Nomad Data積極與媒體機構和其他公司合作，以擴展其數據供應商網絡。施奈德報告，Nomad已與多家企業合作，包括汽車製造商和保險公司，將其數據上傳至平台。

LLM數據需求的持續增長

總的來看，LLM數據供應鏈是一個自我強化的循環。Nomad Data利用LLM識別新的數據供應商，然後協助用戶找到所需數據。這些數據隨後被用於LLM API的訓練和推斷。施奈德強調，「LLMs對我們的業務至關重要。隨著我們收集更多文本數據，不斷學習如何利用這些多樣的數據集。」AI訓練數據只是整體市場的一小部分，而LLM推斷和定制訓練則呈現出最令人興奮的機遇。施奈德表示，「現在我可以獲得過去沒有價值的數據，這對我的業務建設將有重要意義，這要歸功於這些新技術。」

轉型人力資源：ADP Assist 引領人工智慧創新

Roblox 利用 AI 即時聊天翻譯技術打破語言障礙

Most people like

JibJab

5.7K

在當今快速變化的數位環境中，個性化娛樂平台已徹底改變了我們消費內容的方式。這些量身定制的服務根據您的偏好精心策劃體驗，確保每位用戶享受獨特的觀看旅程。憑藉先進的演算法和豐富的選擇，這些平台不僅節省您的時間，還提升整體娛樂體驗，將您與喜愛的節目和電影連結起來。加入我們，一同探討這些創新娛樂解決方案的優勢與特點。

個性化人工智慧照片 AI GIF Generator

UTOPIA

7.6K

探索人工智慧與顛覆性技術對創意產業的影響。

人工智慧 AI Tools Directory

Mailchimp

12.8M

透過 Mailchimp 的強大行銷與自動化平台，提高您的客戶轉換率。讓您的努力更具效率，並有效吸引受眾，以推動銷售並擴展業務。

電子郵件行銷 AI Email Marketing

CleverSpinner

24.9K

在數位時代，創造獨特且引人入勝的內容對於在網上脫穎而出至關重要。AI內容重寫器、旋轉器和人性化工具可將現有文章轉化為新穎且吸引人的作品。通過提升可讀性並注入人性化元素，這些工具不僅改善了內容的獨創性，還提高了其搜索引擎可見度（SEO）。無論您是博主、市場營銷人員還是企業主，利用AI驅動的內容解決方案可以簡化您的寫作過程，同時有效吸引觀眾的注意力。

AI 文章重寫 AI Content Detector

Find AI tools in YBX