数据编排在不同系统之间无缝传输数据中发挥着关键作用,而Apache Airflow已成为此领域的领先工具,最初由Airbnb开发。
最近,Apache Airflow的主要商业支持者Astronomer推出了Astro平台的更新,增强了企业支持、安全性和管理功能。最初设计用于分析和商业智能的数据管道编排,Airflow现在也越来越多地应用于人工智能(AI)和机器学习(ML)工作负载。
Astronomer首席技术官Julian LaNeve表示:“Airflow擅长编写和执行数据管道,通过将管道定义为代码,用户能够实现几乎无限的可能性。”
Airflow在数据编排中的重要性
LaNeve强调,由于简化了组织定义、构建和部署数据管道的流程,Airflow的受欢迎程度大幅上升。它能与主要数据平台和云服务(如Snowflake、Databricks、AWS、微软Azure和谷歌云)无缝集成。虽然Airflow对单个团队友好,但在企业级别上的复杂性则有所增加。正因如此,Astronomer提供了Apache Airflow的托管服务。
Astronomer为这一开源框架添加了更多功能。LaNeve解释道:“我们开发了Astronomer运行时,优化了开源项目以提高效率。”
此外,Astro平台还包含旨在简化数据管道创建的工具。例如,Astro Cloud IDE提供了基于笔记本的环境,便于开发管道,Astronomer还在可观察性方面进行了探索,以便更好地理解整个生态系统中的数据流。
Astro的增强连接和升级
借助最新的Astro平台更新,Astronomer引入了显著的增强功能。管理数据管道的一个主要挑战是确保与数据源的安全连接;新的连接管理功能解决了这一问题。
这一功能作为数据管道的集中治理和安全点,LaNeve指出:“管理员可以轻松定义与Snowflake、Databricks及其他通过Airflow可访问源的连接。”
更新还使数据管道配置的升级和回滚更加顺畅。如果管道失败,用户可以迅速恢复到先前的配置,而平台在应用更新前会进行兼容性检查,以确保顺利运行。
Astronomer对AI的承诺
Astronomer在AI工作流中的应用日益增加。今年十一月,该公司宣布与众多AI供应商(包括OpenAI、Cohere、Pinecone、OpenSearch、Weaviate和pgvector)进行集成。
Astronomer还推出了构建和部署大型语言模型(LLM)应用的参考架构。可在ask.astronomer.io上查阅的公开演示展示了如何利用检索增强生成(RAG)策略整合来自多个来源的文档。
LaNeve展望了Airflow和Astro平台在训练AI模型中的广泛应用:“为了确保您的模型使用最新的数据进行训练,可靠性至关重要,而这正是Astronomer和Airflow设计的初衷。”