在過去十年中,數據工具和基礎設施的格局發生了巨大的變化。作為一家雲數據基礎設施公司的創始人,自2009年以來,我和2013年創立的數據工程師聚會社區一起見證了這個社區的發展,早在“數據工程師”成為正式職位之前,我就已經參與其中。這樣的獨特觀點讓我能夠反思以往的經驗教訓,思考這些教訓如何影響新AI時代的發展。
在科技人類學的領域中,2013年標誌著從“大數據”時代過渡到“現代數據堆棧”(MDS)時代。在大數據時期,人們普遍認為更多的數據能帶來更好的洞察,並被認為是解鎖新商業價值的關鍵。
作為一家大型互聯網公司的策略顧問,我曾負責制定策略,以分析每日數十億次DNS查詢的龐大數據輸出,試圖挖掘潛在的1億美元商機。不幸的是,儘管我們付出了努力,在項目有限的時間內仍未能找到任何有價值的洞察。這次經歷加強了一個重要的教訓:儲存大量數據相對簡單,但提取有意義的洞察卻是一項複雜且資源密集的工作。
認識到這一挑戰後,企業們紛紛加強數據基礎設施,堅信只有優化數據系統,才能產生洞察。這種趨勢導致數據工具的激增,供應商聲稱提供完整數據堆棧中缺失的部分,以獲得那些難以捉摸的洞察。
“激增”一詞並非輕易使用;根據Matt Turck的2024年MAD(機器學習、AI和數據)格局,提供數據基礎設施工具的公司數量從2012年的139家激增至今年的2,011家,增長驚人,達到14.5倍。
工具過載的挑戰
現今數據格局受到多重因素的影響。許多企業將其在本地的工作負載遷移到雲端,現代數據堆棧供應商提供設計為可靠性、靈活性和可擴展性的托管服務。
然而,隨著企業在零利率政策(ZIRP)期間擴大工具組合,顯著挑戰也隨之而來。使用多個分散工具的複雜性、整合困難以及未充分利用的雲服務讓人質疑MDS是否能如其所承諾的那樣實現價值。許多《財富500強》企業在數據基礎設施上投入重金,但卻缺乏一個連貫的策略來實現數據的價值。收集各種工具的誘惑導致重複投入,因為同一組織內的團隊經常利用重疊的平台,如Tableau和Looker,導致開支增加而沒有相應的收益。
儘管ZIRP泡沫最終破裂,MAD格局仍在不斷擴張。這是為什麼呢?
新AI堆棧
許多在ZIRP時期資本充足的數據工具公司,在企業預算收緊和市場需求減少的情況下仍繼續運營。一個重要因素是對AI的強烈關注,這催生了一波新的數據工具,且未經歷前一時代的重大市場整合。
“AI堆棧”代表了一個全新的範式。傳統數據堆棧旨在處理結構化數據,而新一波的AI卻依賴於大量的非結構化數據——文本、圖像和視頻。此外,生成式AI模型與舊有的決定性機器學習模型不同,即使輸入不變也能產生多樣的輸出,如ChatGPT所示。
鑑於這些差異,開發者必須採用新的方法來評估和監控AI模型的輸出,以確保倫理治理和有效整合。關鍵領域包括代理編排(模型間通信)、針對特定用例開發專門模型,以及創新的工作流工具以進行數據集策劃。
許多初創公司已開始解決這些挑戰,促使新AI堆棧中出現前沿工具。
在新AI時代的智慧建設
在我們駛入這個新的AI時代時,重視過去的經驗至關重要。數據是AI的基礎,而今天眾多的工具選擇為將數據視為重要資產鋪平了道路。然而,我們必須問自己如何在前進中避免以往過度的陷阱。
一個可行的做法是企業應明確期望特定數據或AI工具所帶來的具體價值。在沒有戰略目標的情況下過度承諾技術趨勢可能會帶來負面影響,尤其是在AI熱潮吸引了大量注意和預算的情況下。必須優先考慮那些展現明確價值和可測量投資回報的工具。
創始人在創建“我也要”解決方案時應格外謹慎。在擁擠的市場中追求新工具之前,他們應評估團隊是否具備獨特的見解和差異化的專業知識,真的能增加價值。
投資者也需要批判性地評估在數據和AI工具堆棧中價值將如何聚集,然後再進行投資。僅依賴於創始人來自知名公司的背景可能會導致市場過飽和,充斥著未經區分的產品。
在最近的一次會議上提出了一個引人深思的問題:“如果你的數據中有一行不準確,對你的業務會有什麼影響?”這促使企業建立一個清晰的框架,以量化數據及數據工具在其運作中的價值。
如果沒有這種清晰度,再多的數據和AI工具投資都無法解決現有的混亂。