當ChatGPT於一年多前推出時,為網路使用者提供了一個隨時可用的AI助手,應對各種任務,從生成自然語言內容(如論文)到分析複雜資訊。這一迅速崛起凸顯了其背後強大的技術:GPT系列的大型語言模型(LLMs)。
如今,包括GPT系列在內的LLMs不僅在提升個別任務的效率,還在徹底改變整個商業運作。企業正利用商用模型API和開源解決方案來自動化重複性任務、提升效率並簡化關鍵功能。想像一下,與AI互動為行銷團隊設計廣告活動或透過迅速訪問正確數據庫來加速客戶支持。
數據堆疊的轉型
數據對大型語言模型的性能至關重要。有效訓練後,這些模型能讓團隊高效地操控和分析數據。隨著ChatGPT及其競爭對手在過去一年中的流行,許多企業將生成式AI整合進數據工作流程,簡化用戶體驗,並使顧客在核心任務上節省時間和資源。
其中一項重要進展是引入對話式查詢能力。此功能允許用戶使用自然語言與結構化數據(以行和列組織的數據)進行互動,消除了編寫複雜SQL查詢的需要。透過這種文字到SQL的功能,即使是非技術用戶也能以簡易語言輸入查詢,並從數據中獲得見解。
多家主要供應商在這方面引領創新,包括Databricks、Snowflake、Dremio、Kinetica和ThoughtSpot。Kinetica最初使用ChatGPT,現在則運用其自有的LLM。Snowflake提供兩大工具:一個用於對話式數據查詢的輔助工具和SQL查詢生成器,以及一個從非結構數據集(如圖片和PDF)中提取資訊的文檔AI工具。Databricks的‘LakehouseIQ’解決方案也類似。
新興的初創企業同樣專注於基於AI的分析。例如,加州的DataGPT提供一個專門的AI分析師,實時執行數千個查詢,以對話格式提供結果。
支持數據管理與AI倡議
除了生成見解外,LLMs也越來越多地促進數據管理任務,這對建立穩健的AI產品至關重要。今年5月,Informatica推出了Claire GPT,一個多LLM對話式AI工具,幫助用戶使用自然語言輸入發現、管理和互動其智能數據管理雲(IDMC)數據資產。Claire GPT執行多種功能,包括數據發現、流程創建、元數據探索和質量控制。
為了進一步協助團隊開發AI產品,Refuel AI推出了一款專為數據標註和豐富任務設計的LLM。2023年10月發布的研究顯示,LLMs同樣能有效減少數據集中的雜訊,這是確保AI質量的重要步驟。
LLMs在數據工程中的應用也十分廣泛,特別是在數據整合和編排方面。它們能生成必要的代碼,以轉換不同的數據類型、連接不同的來源或創建YAML和Python模板用於構建Airflow DAGs。
展望未來
在短短一年內,LLMs對企業界產生了顯著影響,隨著這些模型在2024年的進一步發展,我們可以期待在數據堆疊中出現更多應用,包括新興的數據可觀察性領域。Monte Carlo推出了Fix with AI,一個識別數據管道問題並建議修正代碼的工具。同樣,Acceldata收購Bewgle以增強LLM在數據可觀察性方面的整合。
隨著新應用的出現,對於團隊來說,確保其語言模型(無論是內部開發還是經過微調的)保持高效能至關重要。即使是微小的錯誤也可能導致重大的下游影響,潛在地擾亂客戶體驗。