上週,我討論了馬克·扎克伯格對Meta AI策略的見解,突顯出一個顯著的優勢:一個龐大且持續擴大的內部數據集,這使其Llama模型得以訓練。祖克柏指出,Facebook和Instagram擁有「數千億張公開分享的圖片和數百億段公開視頻」,其規模超過Common Crawl數據集。用戶還在這些平台上分享大量的公共文本帖子。
AI對數據的無盡需求
然而,對於Meta、OpenAI或Anthropic等公司的模型訓練來說,數據只是一個起點,了解當今大型語言模型(LLMs)的數據需求才更為關鍵。持續的推斷需求—利用LLMs進行各類應用—造就了不斷消耗數據的循環。這有點類似於經典遊戲「饑餓饑餓河馬」,AI模型不斷收集數據以確保高效運行。
有效AI推斷的特定數據集
Nomad Data創始人兼CEO布拉德·施奈德強調,「[推斷]是更大的市場,我認為人們並未意識到這一點。」Nomad Data作為數據發現平台,將超過2,500個數據供應商與尋求特定數據集以支持LLM推斷需求的公司對接。Nomad並不是數據經紀人,而是幫助企業以自然語言搜索數據。例如,用戶可能請求「每月在美國進行施工的每一個屋頂的數據流」。施奈德解釋說,許多用戶對所需數據集的精確名稱並不熟悉。Nomad的LLMs幫助識別能提供數據的相關供應商。
瞬間匹配數據需求
需求和供應的快速匹配展示了平台的有效性。施奈德回憶起一家保險公司將數據上傳至Nomad:幾乎立即,另一家公司搜索詳細的車禍數據,卻不知道這些信息屬於「保險數據」。他表示,「這就是所謂的魔力。」
持續數據供應的重要性
施奈德強調,雖然訓練數據至關重要,但模型訓練不頻繁,而推斷則持續進行—有時每分鐘達到數千次。這種對新鮮數據的持續需求對利用生成式AI的公司尤為重要,特別是在創造有價值的洞見方面。他解釋,「你需要提供某些東西,才能讓它做出有趣的表現。」大企業挑選正確的數據「食物」仍然是一大挑戰。最初,利用內部數據至關重要,但引入高質量的外部數據集歷來困難。組織經常難以從海量檔案中提取有用信息,例如數百萬份PDF。幸運的是,LLMs如今能夠快速分析來自各種來源的文本數據,包括消費者記錄和政府檔案。
釋放未開發數據的價值
施奈德將這一變革比喻為發現「埋藏的寶藏」。曾被視為無用的數據現在變得極具價值。此外,數據對於定制LLM訓練至關重要。例如,開發一個辨識日本收據的模型,需要相應的收據數據集。同樣,創建一個辨識足球場圖像中廣告的模型需要相關視頻數據集。
媒體公司為數據變現
大型媒體公司也開始將數據授權給LLM公司。OpenAI最近與Axel Springer達成合作,而與《紐約時報》的談判則以訴訟結束。Nomad Data積極與媒體機構和其他公司合作,以擴展其數據供應商網絡。施奈德報告,Nomad已與多家企業合作,包括汽車製造商和保險公司,將其數據上傳至平台。
LLM數據需求的持續增長
總的來看,LLM數據供應鏈是一個自我強化的循環。Nomad Data利用LLM識別新的數據供應商,然後協助用戶找到所需數據。這些數據隨後被用於LLM API的訓練和推斷。施奈德強調,「LLMs對我們的業務至關重要。隨著我們收集更多文本數據,不斷學習如何利用這些多樣的數據集。」AI訓練數據只是整體市場的一小部分,而LLM推斷和定制訓練則呈現出最令人興奮的機遇。施奈德表示,「現在我可以獲得過去沒有價值的數據,這對我的業務建設將有重要意義,這要歸功於這些新技術。」