今天,Databricks 宣布收購位於波士頓的應用研究初創公司 Lilac,該公司專注於數據理解和操作。此次收購的財務條款尚未披露。
在 Ali Ghodsi 的帶領下,Databricks 計劃將 Lilac 的團隊和技術整合進其數據智能平台,原名數據湖屋。此一整合將為各個領域的用戶提供精簡的方式,以提升數據集的質量,助力高效能大型語言模型(LLM)應用的開發。
此次收購符合 Databricks 成為綜合數據及生成式 AI 解決方案平台的願景。最近,該公司還對歐洲領先的生成式 AI 初創公司 Mistral 進行了未披露金額的投資,該公司在歐洲已取得顯著成功。
Lilac:簡化數據探索
去年收購 Mosaic AI 標誌著 Databricks 向 AI 驅動的未來邁出了戰略性的一步,使用戶能夠安全地使用托管數據構建生成式 AI 應用。自那時以來,Databricks 推出了多個開放模型,使客戶能夠根據特定業務需求開發、部署和維護高質量的 LLM 應用。
業界普遍認識到,高質量的數據是有效 AI 項目的基礎,包括 LLM 系統。為了確保最佳的模型訓練和現實性能測試,並解決偏見和幻覺等問題,團隊需要可靠的數據。Lilac 針對 Databricks 的這些關鍵數據質量挑戰提供了解決方案。
傳統上,團隊依賴耗費人力的手動方法來探索非結構化數據並修正其不足。Lilac 由前 Google 工程師 Daniel Smilkov 和 Nikhil Thorat 在 2023 年創立,提供可擴展的開源解決方案。其直觀的用戶界面和 AI 強化功能讓用戶能高效地分析、理解和修改非結構化文本數據。
Lilac 的特色
根據 Lilac 的網站,數據科學家和 AI 研究人員可以利用其功能完成以下任務:
- 聚類和分類文檔
- 執行語義和關鍵字搜索
- 檢測個人信息或重複內容,並通過對比視圖進行必要的調整
- 根據特定需求量身定制數據集
Databricks 高管 Matei Zaharia、Naveen Rao、Jonathan Frankle、Hanlin Tang 和 Akhil Gupta 在一篇聯合博客中指出:“Lilac 背後的團隊專門設計了其產品,用於分析模型輸出中的偏見或毒性,並為檢索增強生成(RAG)及 LLM 的微調或預訓練準備數據。”
他們進一步強調,Lilac 的技術將整合進 Databricks 的 Mosaic AI 工具中,以提升開發人員針對定製生成式 AI 系統的數據集策劃能力。雖然具體的整合細節尚待披露,但目標依然明確:簡化數據調整,以評估和監控 LLM 輸出並準備數據集,用於 RAG 和模型微調等重要過程。
擴展生成式 AI 能力
此次收購對 Databricks 來說是一個重要步驟,旨在提供端到端的工具以開發強大的生成式 AI 應用。Databricks 平台上的用戶已經可以訪問所有創建 LLM 驅動系統所需的資源,包括來自 Meta、Stability 和 Mistral 等行業領導者的開放模型,以及專門針對實驗和優化的 Mosaic 工具。
針對相似的市場需求,競爭對手如 Snowflake 也在這一領域取得了進展,推出了 Cortex 這一全受管理服務,以幫助客戶建立由先進開放模型驅動的應用。