虛構的《勇者鬥惡龍》機器人,源自同名動畫系列,象徵著將多個機器獅子結合成一個強大實體的力量,能夠完成偉大的成就。
成立於2022年,獲得1.1億美元資金的Voltron Data,旨在利用多種開源技術,如Apache Arrow、Apache Parquet和Ibis,提升數據訪問能力。今天,Voltron Data宣布推出Theseus分布式查詢引擎,專為滿足高需求AI工作負載而設計,能顯著加速數據查詢。
Theseus經過精心設計,能通過利用GPU及其他硬件加速器來優化大規模數據管道和查詢。"我們在開發Theseus時遵循的原則與我們的開源倡議一致——採用模組化、可組合且加速的庫來增強數據系統," Voltron Data的共同創辦人兼首席執行官Josh Patterson在專訪中表示。"這是我們向成為高級數據系統設計與建設領導者邁出的下一步。"
Theseus:為海量數據量身打造
Theseus專為執行10TB或更多的大型數據集的分布式查詢而設計,目標是滿足擁有PB級數據處理需求的組織,包括《財富》500強企業、政府機構、對沖基金、電信和媒體娛樂公司。
Theseus的一個主要目的是加速ETL(提取、轉換、加載)、特徵工程及其他數據準備任務,促進下游AI和分析系統的數據整合。隨著AI系統的演進,實時數據轉換的需求不斷增加。
"Patterson表示,我們的用戶分享了他們面臨的最大問題是無法快速為他們的AI系統提供數據。這一需求驅動了Theseus的開發。"
傳統數據查詢常因CPU性能受限而受到阻礙。Theseus通過運用加速計算技術,包括GPU,超越了標準CPU技術。Patterson形容Theseus為"加速器本土化",優化以充分利用如Nvidia GPU及先進的網絡和存儲解決方案。
這一加速器本土化的方法使Theseus能夠比傳統的CPU引擎(如Apache Spark)在規模上更快地執行查詢。
Theseus的AI應用
Theseus的一個重要應用是在超參數優化領域,幫助組織高效處理大量參數,從而更有效地精煉模型輸入。
"Patterson指出,執行特徵工程和ETL過程越快,數據就越新鮮,模型的表現也會更好。"
兼容性為核心
Theseus遵循開放標準,如Apache Arrow、Apache Parquet和Ibis,以確保互操作性。
"Patterson解釋說,這不是一個專有的孤立系統;任何兼容Apache Arrow的數據湖都可以使用Theseus進行查詢。"該架構允許數據與各種流行的機器學習工具和框架(如PyTorch和TensorFlow)無縫整合。
"Patterson補充道,我們創建了一個簡單的方法,便於在我們的系統中移動數據。"
Theseus本質上是一個分布式查詢引擎,並不包括自己的用戶界面。相反,它利用SQL查詢和Ibis,可以輕易地與現有的前端系統和工作流程整合。
夥伴關係與未來計劃
Voltron Data通過與Hewlett Packard Enterprise(HPE)建立戰略合作,進入市場並推出Theseus。這一合作將Theseus整合進HPE GreenLake混合雲平台,提供必要的基礎設施,同時允許客戶通過Ibis統一跨不同引擎的查詢。
展望未來,Patterson表示,Voltron Data計劃擴展Theseus的合作夥伴關係,並增強其功能,包括用戶自定義函數。2024年的重點將放在簡化與全面數據科學管道的整合。
"Patterson總結道,我們的目標是使連接數據科學管道中的各種組件變得更快、更簡單,從而賦能用戶。"