将数据从源头转化为有效的分析和人工智能应用并非易事。数据编排技术,例如开源项目Apache Airflow,在构建数据管道中发挥着至关重要的作用,使数据能够及时送达所需之处。
今天迎来了Apache Airflow 2.10的发布,这是自4月推出Airflow 2.9以来的首次重大更新。这一新版本引入了混合执行功能,使组织能够针对不同工作负载(从简单的SQL查询到复杂的机器学习任务)优化资源配置。同时,增强的数据溯源功能提升了对数据流的可视化,这对于治理和合规至关重要。
作为Apache Airflow的主要商业供应商,Astronomer也在更新其Astro平台,以整合开源的dbt-core(数据构建工具)。这项整合将数据编排和转换工作流统一到一个平台上。
这些更新共同旨在简化数据操作,弥合传统数据工作流与新兴AI应用之间的差距,为企业提供更灵活的数据编排方式,以应对多样化数据环境和AI流程的复杂性。
Astronomer的首席技术官Julian LaNeve表示:“采用编排时,意味着协调整个数据供应链的活动,确保中心可视性。”
Airflow 2.10如何利用混合执行提升数据编排
Airflow 2.10的一大重要提升是引入混合执行。在此之前,Airflow用户需要为整个部署选择单一执行模式,通常是Kubernetes集群或Celery执行器。Kubernetes擅长处理复杂的计算密集型任务,而Celery则更适合轻量级任务。
然而,现实中的数据管道通常包含多种工作负载。LaNeve指出,一个组织可能需要在同一部署中执行简单的SQL查询和复杂的机器学习工作流。混合执行现在提供了这种灵活性,使数据管道的每个组件都能根据计算资源需求进行优化。
LaNeve强调:“在管道和任务级别选择执行模式,而不是在整个部署中统一选择,给Airflow用户带来了新的灵活性和效率。”
数据溯源在人工智能导向的数据编排中的重要性
数据溯源——理解数据的来源和流转——对于传统分析和新兴人工智能工作负载至关重要。稳健的溯源追踪对于人工智能和机器学习尤为重要,因为数据的质量和来源可以显著影响结果。
在Airflow 2.10发布之前,数据溯源追踪存在局限性。新功能的添加提升了Airflow捕捉管道内依赖关系和数据流的能力,即便是在自定义的Python代码中。这种改进的溯源追踪增强了AI系统的信任度。LaNeve指出:“当今任何AI应用的关键组成部分就是信任。”用户需要确保AI生成的输出是可靠的。清晰的溯源提供了可审计的记录,详细记录了数据的来源、转化和模型训练的利用方式,从而增强了数据治理和对敏感信息的安全性。
展望Airflow 3.0
随着数据治理、安全和隐私的重要性日益上升,LaNeve已经开始期待Airflow 3.0的未来。即将发布的版本旨在为生成性人工智能时代现代化Airflow,其优先事项包括使平台更加语言无关,允许用户使用任何编程语言编写任务,并增强数据意识,侧重于管理数据流而不仅仅是编排流程。
LaNeve强调:“我们希望确保Airflow在未来10到15年内继续成为编排的标准。”