Получение данных от их источника до эффективного использования в аналитике и ИИ часто бывает непростым. Технология оркестрации данных, такая как проект с открытым исходным кодом Apache Airflow, играет ключевую роль в настройке конвейеров данных, которые доставляют информацию туда, где она нужна.
Сегодня состоялся выпуск Apache Airflow 2.10 — первого значительного обновления проекта с момента выхода Airflow 2.9 в апреле. Эта новая версия вводит гибридное выполнение, позволяя организациям оптимизировать распределение ресурсов для различных рабочих нагрузок, от простых SQL-запросов до сложных задач машинного обучения (ML). Улучшенные возможности отслеживания данных обеспечивают большую видимость потоков данных, что является важным для соблюдения норм и требований.
Astronomer, ведущий коммерческий поставщик Apache Airflow, также обновляет свою платформу Astro для интеграции с открытым решением dbt-core (Data Build Tool). Эта интеграция объединяет потоки оркестрации и трансформации данных на одной платформе.
Эти обновления направлены на упрощение работы с данными и преодоление разрыва между традиционными рабочими процессами обработки данных и новыми приложениями ИИ, предлагая предприятиям более адаптивный подход к оркестрации данных, который решает сложности разнообразных данных и процессов ИИ.
Юлиан ЛаНев, CTO компании Astronomer, отметил: «Когда вы выбираете оркестрацию, речь идет о координации действий по всей цепочке поставки данных и обеспечении централизованной видимости».
Как Airflow 2.10 Улучшает Оркестрацию Данных с Гибридным Выполнением
Одним из значительных улучшений в Airflow 2.10 является внедрение гибридного выполнения. Ранее пользователям Airflow приходилось выбирать один режим выполнения для всей развертки, обычно либо кластер Kubernetes, либо исполнитель Celery. Kubernetes отлично справляется со сложными вычислительными задачами, в то время как Celery более эффективен для легких действий.
Тем не менее, реальные конвейеры данных часто включают в себя смесь типов рабочих нагрузок. ЛаНев отметил, что организации могут потребоваться выполнять простой SQL-запрос наряду со сложной задачей машинного обучения в рамках одного развертывания. Гибридное выполнение теперь позволяет эту гибкость, позволяя каждому компоненту конвейера данных быть оптимизированным для соответствующего уровня вычислительных ресурсов.
ЛаНев добавил: «Выбор режимов выполнения на уровне конвейера и задач, а не единообразно для всего развертывания, предоставляет новый уровень гибкости и эффективности для пользователей Airflow».
Важность Путь Данных в Оркестрации Данных для ИИ
Путь данных — понимание происхождения и пути данных — критически важно как для традиционной аналитики, так и для новых рабочих нагрузок ИИ. Надежное отслеживание путей данных жизненно необходимо в ИИ и машинном обучении, где качество и происхождение данных могут значительно влиять на результаты.
До выхода Airflow 2.10 отслеживание путей данных имело свои ограничения. С новыми функциями Airflow теперь улучшает способность захватывать зависимости и потоки данных внутри конвейеров, даже для пользовательского кода Python. Это улучшенное отслеживание путей данных способствует доверию к системам ИИ, поскольку, как отметил ЛаНев, «ключевым компонентом любого ИИ-приложения сегодня является доверие». Пользователям необходимо быть уверенными в надежности результатов, генерируемых ИИ. Ясные пути данных обеспечивают проверяемый след, документирующий, как данные были собраны, трансформированы и использованы для обучения моделей, тем самым укрепляя управление данными и безопасность в отношении чувствительной информации.
Взгляд в Будущее: Airflow 3.0
С ростом важности управления данными, безопасности и конфиденциальности ЛаНев уже предвкушает будущее Airflow с версией 3.0. Это предстоящее обновление направлено на современную адаптацию Airflow для эпохи генеративного ИИ, с приоритетами, включающими в себя создание платформы, которая будет более независимой от языков программирования, позволяя пользователям писать задачи на любом языке программирования и повышая осведомленность о данных, сосредотачиваясь больше на управлении потоками данных, чем просто на оркестрации процессов.
ЛаНев подчеркнул: «Мы хотим убедиться, что Airflow останется стандартом для оркестрации в течение следующих 10-15 лет».