介紹 Apache Airflow 2.10:人工智慧數據協調的新時代

從數據源到分析與人工智能的有效運用,往往並不簡單。數據協調技術如開源的Apache Airflow項目,對於促進數據管道的建立至關重要,能夠將數據準確送達所需之處。

今天,我們迎來了Apache Airflow 2.10的發佈,這是自4月份推出的Airflow 2.9以來的首次重大更新。此版本引入了混合執行功能,讓企業能夠針對各種工作負載優化資源配置,從簡單的SQL查詢到需求高的機器學習任務均可適用。增強的數據來歷追蹤能力使數據流的可視性提高,這對於治理與合規至關重要。

Apache Airflow的主要商業供應商Astronomer,亦在更新其Astro平台,以整合開源的dbt-core(資料建構工具)。這一整合實現了數據協調與轉換工作流的統一,提升了效率。

這些更新的目標是簡化數據運營,縮小傳統數據工作流與新興人工智能應用之間的差距,為企業提供一種更具適應性的數據協調方法,以應對多樣的數據環境及人工智能過程中的複雜性。

Astronomer的首席技術官Julian LaNeve表示:「當你採納協調技術時,就是在協調整個數據供應鏈的活動,確保中心可見性。」

Airflow 2.10以混合執行提升數據協調

Airflow 2.10的一大重要增強是混合執行的引入。之前,Airflow用戶必須為整個部署選擇一種執行模式,通常是Kubernetes集群或Celery執行器。Kubernetes非常擅長處理複雜的計算密集型任務,而Celery則對較輕的任務更加高效。

然而,現實世界中的數據管道通常包含多種工作負載類型。LaNeve指出,組織可能需要在同一部署中執行簡單的SQL查詢和複雜的機器學習工作流。現在,混合執行允許對數據管道的每一組件進行針對性的計算資源優化。

LaNeve提到:「在管道及任務層級選擇執行模式,而非在整個部署中統一選擇,為Airflow用戶提供了一種全新的靈活性和效率。」

數據來歷在面向AI的數據協調中的重要性

了解數據來源及其流轉過程即數據來歷,對於傳統分析和新興的AI工作負載至關重要。強大的來歷追蹤在AI與機器學習中尤為重要,因為數據的質量和來源會對結果產生重大影響。

在Airflow 2.10推出之前,數據來歷追蹤存在一些限制。隨著新特性的推出,Airflow現在加強了捕捉管道內依賴關係和數據流的能力,即使是自定義Python代碼也可追蹤。這種改進的來歷追蹤增強了對AI系統的信任,LaNeve表示:「當今任何AI應用的關鍵組成部分就是信任。」用戶需要確保AI生成的輸出是可靠的。清晰的來歷提供了一條可審計的記錄,記載數據如何被獲取、轉換及用於模型訓練,從而強化數據治理和敏感信息的安全性。

展望Airflow 3.0

隨著數據治理、安全性和隱私的重要性日益增加,LaNeve已經開始期待Airflow 3.0的未來。這一即將推出的版本旨在為生成性AI的時代現代化Airflow,其重點包括使平台不依賴於特定語言,允許用戶使用任何編程語言編寫任務,以及更專注於管理數據流而非僅僅協調過程。

LaNeve強調:「我們希望確保Airflow在未來10到15年內仍然是協調的標準。」

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles