Voltron 数据通过 Theseus 分布式查询引擎提升 AI 能力

虚构的机器人“勇者”(Voltron)来自同名动画系列,象征着将多只机器人狮子结合成一个强大实体的力量,能够完成伟大的成就。

2022年获得1.1亿美元融资的Voltron Data,致力于利用各种开源技术,如Apache Arrow、Apache Parquet和Ibis,来提升数据访问效率。近日,Voltron Data宣布推出Theseus分布式查询引擎,旨在显著加速高要求的人工智能(AI)工作负载的数据查询。

Theseus的设计目标是通过利用GPU和其他硬件加速器,优化大规模数据管道和查询。Voltron Data的联合创始人兼首席执行官Josh Patterson在一次独家访谈中表示:“我们基于开放源代码的原则构建Theseus——模块化、可组合和加速的库,旨在增强数据系统的性能。这是我们在高级数据系统设计和构建领域迈出的下一步。”

Theseus:专为海量数据而生

Theseus的特别之处在于其能够高效处理中等规模(10TB及以上)的大型数据集,服务于有PB级数据处理需求的组织,包括财富500强公司、政府机构、对冲基金、电信及媒体娱乐公司等。Theseus的主要目标是加速ETL(提取、转换、加载)、特征工程等数据准备工作,从而提高下游AI和分析系统的数据集成速度。

Patterson表示:“我们的用户普遍反映,面临的最大问题是无法迅速为他们的AI系统提供数据。这一需求催生了Theseus的开发。”传统数据查询常常受限于CPU性能,而Theseus通过采用加速计算(如GPU)超越了标准CPU技术。Patterson将Theseus形容为“以加速器为核心”,旨在充分发挥Nvidia GPUs以及先进网络和存储解决方案的优势。

这种加速器原生的方法使得Theseus在大规模执行查询时的速度超过传统的基于CPU的查询引擎,如Apache Spark。

AI应用与Theseus

其中一项Theseus的重要应用是超参数优化,组织可以高效处理众多参数,通过特征工程更有效地优化模型输入。Patterson指出:“执行特征工程和ETL流程越快,数据越新鲜,模型质量就越好。”

核心互操作性

Theseus秉持开放标准,如Apache Arrow、Apache Parquet和Ibis,以确保互操作性。Patterson解释道:“这不是一个封闭的系统;任何与Apache Arrow兼容的数据湖都可以通过Theseus进行查询。”该架构可以将数据与多种流行的机器学习工具和框架(包括PyTorch和TensorFlow)无缝集成。“我们创建了简便的方法,以便在我们的系统中进行数据的进出。”Patterson补充道。

合作伙伴关系与未来计划

Voltron Data通过战略合作伙伴关系正式推出Theseus,首个合作方为Hewlett Packard Enterprise(HPE)。这项合作将把Theseus集成到HPE GreenLake混合云平台中,为客户提供所需的基础设施,同时允许用户通过Ibis在不同引擎之间统一查询。

展望未来,Patterson透露Voltron Data计划扩大Theseus的合作,增强其功能,包括用户定义的函数。2024年的重点将是简化与全面的数据科学管道的集成。“我们的目标是让连接数据科学管道各个组件变得更快更简单,从而赋能用户。”Patterson总结道。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles