Apache Airflow 2.10 소개: AI 데이터 오케스트레이션의 새로운 시대

데이터를 출처에서 효과적으로 분석 및 AI에 활용하는 것은 간단하지 않습니다. 오픈 소스 프로젝트인 Apache Airflow와 같은 데이터 오케스트레이션 기술은 필요한 곳에 데이터를 전달하는 데이터 파이프라인을 원활하게 하는 중요한 역할을 합니다.

오늘은 Apache Airflow 2.10의 출시일입니다. 이는 4월에 출시된 Airflow 2.9 이후 처음으로 이루어진 대규모 업데이트입니다. 이번 버전에서는 하이브리드 실행 기능이 추가되어, 조직이 단순 SQL 쿼리에서 복잡한 머신 러닝(ML) 작업에 이르기까지 다양한 작업 부하를 최적화할 수 있습니다. 강화된 계보 기능은 데이터 흐름에 대한 가시성을 높여 주며, 이는 거버넌스와 규정 준수에 필수적입니다.

Apache Airflow의 주요 상업적 공급업체인 Astronomer는 오픈 소스 dbt-core(데이터 빌드 도구)와 통합하여 Astro 플랫폼을 업데이트하고 있습니다. 이 통합으로 데이터 오케스트레이션과 변환 작업 흐름이 하나의 플랫폼에서 통합됩니다.

이러한 업데이트는 전통적인 데이터 작업 흐름과 신생 AI 애플리케이션 간의 간극을 해소하고, 기업에 다양한 데이터 환경과 AI 프로세스의 복잡성을 해결할 수 있는 더 유연한 데이터 오케스트레이션 접근 방식을 제공합니다. Astronomer의 CTO인 Julian LaNeve는 “오케스트레이션을 채택하는 것은 전체 데이터 공급망에서 활동을 조정하고 중앙 집중적인 가시성을 보장하는 것입니다.”라고 말했습니다.

Airflow 2.10의 하이브리드 실행으로 데이터 오케스트레이션 향상하기

Airflow 2.10에서 중요한 개선 사항은 하이브리드 실행 도입입니다. 이전에는 Airflow 사용자가 전체 배포에 대해 단일 실행 모드를 선택해야 했으며, 일반적으로 Kubernetes 클러스터 또는 Celery 실행기 중 하나를 선택했습니다. Kubernetes는 복잡한 컴퓨팅 집약적인 작업에 강점을 보이며, Celery는 더 가벼운 작업에서 효율적입니다.

하지만 실제 데이터 파이프라인은 다양한 작업 유형이 혼합되어 있는 경우가 많습니다. LaNeve는 조직이 동일한 배포에서 간단한 SQL 쿼리와 복잡한 머신 러닝 작업을 수행할 필요가 있을 수 있다고 언급했습니다. 하이브리드 실행은 이제 이러한 유연성을 가능하게 하여, 데이터 파이프라인의 각 구성 요소가 적절한 수준의 컴퓨팅 자원으로 최적화될 수 있도록 합니다.

LaNeve는 “파이프라인 및 작업 수준에서 실행 모드를 선택하는 것은 전체 배포에서 균일하게 선택하는 것보다 Airflow 사용자에게 새로운 수준의 유연성과 효율성을 제공합니다.”라고 강조했습니다.

AI 중심 데이터 오케스트레이션에서 데이터 계보의 중요성

데이터의 기원과 이동 경로를 이해하는 데이터 계보는 전통적인 분석과 AI 작업 모두에 매우 중요합니다. 강화된 계보 추적은 AI 및 머신 러닝에서 필수적이며, 데이터의 품질과 출처는 결과에 큰 영향을 미칠 수 있습니다.

Airflow 2.10 출시 이전에는 데이터 계보 추적에 한계가 있었습니다. 새로운 기능으로 Airflow는 파이프라인 내에서 종속성과 데이터 흐름을 포착하는 능력을 개선하였으며, 이를 통해 사용자 정의 파이썬 코드에 대해서도 적용됩니다. LaNeve는 “오늘날 모든 AI 애플리케이션의 핵심 요소는 신뢰입니다.”라고 말하며, 사용자에게 AI가 생성한 출력의 신뢰성을 보장해야 한다고 강조했습니다. 명확한 계보는 데이터가 어떻게 출처, 변환, 모델 학습에 사용되었는지를 문서화한 감사 trail을 제공하여, 민감한 정보에 대한 데이터 거버넌스와 보안을 향상시킵니다.

Airflow 3.0을 기대하며

데이터 거버넌스, 보안 및 개인 정보 보호의 중요성이 커짐에 따라 LaNeve는 Airflow의 3.0 버전을 이미 기대하고 있습니다. 향후 업데이트는 생성 AI 시대에 맞춰 Airflow를 현대화하는 것을 목표로 하며, 사용자가 모든 프로그래밍 언어로 작업을 작성할 수 있도록 지원하고, 단순히 프로세스를 오케스트레이션하는 것을 넘어 데이터 흐름 관리에 집중하는 방향으로 데이터 인식을 향상시키는 데 초점을 맞추고 있습니다.

LaNeve는 “Airflow가 앞으로 10년에서 15년간 오케스트레이션의 표준으로 남아 있도록 하고 싶습니다.”라고 강조했습니다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles