介绍Apache Airflow 2.10：人工智能数据调度的新纪元

Home AI News CN 介绍Apache Airflow 2.10：人工智能数据调度的新纪元

将数据从源头转化为有效的分析和人工智能应用并非易事。数据编排技术，例如开源项目Apache Airflow，在构建数据管道中发挥着至关重要的作用，使数据能够及时送达所需之处。

今天迎来了Apache Airflow 2.10的发布，这是自4月推出Airflow 2.9以来的首次重大更新。这一新版本引入了混合执行功能，使组织能够针对不同工作负载（从简单的SQL查询到复杂的机器学习任务）优化资源配置。同时，增强的数据溯源功能提升了对数据流的可视化，这对于治理和合规至关重要。

作为Apache Airflow的主要商业供应商，Astronomer也在更新其Astro平台，以整合开源的dbt-core（数据构建工具）。这项整合将数据编排和转换工作流统一到一个平台上。

这些更新共同旨在简化数据操作，弥合传统数据工作流与新兴AI应用之间的差距，为企业提供更灵活的数据编排方式，以应对多样化数据环境和AI流程的复杂性。

Astronomer的首席技术官Julian LaNeve表示：“采用编排时，意味着协调整个数据供应链的活动，确保中心可视性。”

Airflow 2.10如何利用混合执行提升数据编排

Airflow 2.10的一大重要提升是引入混合执行。在此之前，Airflow用户需要为整个部署选择单一执行模式，通常是Kubernetes集群或Celery执行器。Kubernetes擅长处理复杂的计算密集型任务，而Celery则更适合轻量级任务。

然而，现实中的数据管道通常包含多种工作负载。LaNeve指出，一个组织可能需要在同一部署中执行简单的SQL查询和复杂的机器学习工作流。混合执行现在提供了这种灵活性，使数据管道的每个组件都能根据计算资源需求进行优化。

LaNeve强调：“在管道和任务级别选择执行模式，而不是在整个部署中统一选择，给Airflow用户带来了新的灵活性和效率。”

数据溯源在人工智能导向的数据编排中的重要性

数据溯源——理解数据的来源和流转——对于传统分析和新兴人工智能工作负载至关重要。稳健的溯源追踪对于人工智能和机器学习尤为重要，因为数据的质量和来源可以显著影响结果。

在Airflow 2.10发布之前，数据溯源追踪存在局限性。新功能的添加提升了Airflow捕捉管道内依赖关系和数据流的能力，即便是在自定义的Python代码中。这种改进的溯源追踪增强了AI系统的信任度。LaNeve指出：“当今任何AI应用的关键组成部分就是信任。”用户需要确保AI生成的输出是可靠的。清晰的溯源提供了可审计的记录，详细记录了数据的来源、转化和模型训练的利用方式，从而增强了数据治理和对敏感信息的安全性。

展望Airflow 3.0

随着数据治理、安全和隐私的重要性日益上升，LaNeve已经开始期待Airflow 3.0的未来。即将发布的版本旨在为生成性人工智能时代现代化Airflow，其优先事项包括使平台更加语言无关，允许用户使用任何编程语言编写任务，并增强数据意识，侧重于管理数据流而不仅仅是编排流程。

LaNeve强调：“我们希望确保Airflow在未来10到15年内继续成为编排的标准。”

介绍Hermes 3：一款开创性的开源AI模型，解决存在危机问题

Exists推出GenAI平台，轻松将文本提示转化为引人入胜的3D游戏