Данные оркестрация играет ключевую роль в бесшовной передаче данных между различными системами, и Apache Airflow стал ведущим инструментом для этой цели, изначально разработанным компанией Airbnb.
Недавно Astronomer, основной коммерческий партнер Apache Airflow, представила обновление своей платформы Astro, улучшив поддержку для предприятий, безопасность и функции управления. Первоначально предназначенный для оркестрации данных в аналитике и бизнес-интеллекте, Airflow теперь все чаще используется для работы с искусственным интеллектом (ИИ) и машинным обучением (МО).
«Airflow отлично подходит для написания и выполнения конвейеров данных», - отметил Джулиан ЛаНив, технический директор Astronomer. «Определяя конвейеры как код, пользователи открывают практически безграничные возможности».
Значение Airflow в Оркестрации Данных
ЛаНив подчеркнул, что популярность Airflow значительно возросла, поскольку он упрощает определение, создание и развертывание конвейеров данных для организаций. Он бесшовно интегрируется с основными платформами данных и облачными сервисами, такими как Snowflake, Databricks, AWS, Microsoft Azure и Google Cloud. Несмотря на удобство использования Airflow для отдельных команд, его сложность увеличивается на уровне крупных предприятий. Здесь на помощь приходит Astronomer, предоставляя управляемый сервис для Apache Airflow.
Astronomer улучшает открытый фреймворк дополнительными возможностями. «Мы разработали среду выполнения Astronomer, оптимизируя открытый проект для повышения эффективности», - объяснил ЛаНив.
Платформа Astro также включает инструменты, которые упрощают создание конвейеров данных. Например, Astro Cloud IDE предлагает среду на основе блокнота для легкой разработки конвейеров, в то время как Astronomer также уделяет внимание наблюдаемости, фокусируясь на понимании потоков данных в экосистеме.
Улучшенная Связь и Обновления с Astro
С последним обновлением платформы Astro Astronomer представила значительные улучшения. Ключевой проблемой в управлении конвейерами данных является обеспечение безопасных соединений с источниками данных; новая функция управления соединениями решает эту задачу.
Эта функция служит централизованной точкой управления и безопасности для конвейеров данных. «Администраторы могут легко определять соединения со Snowflake, Databricks и любыми другими источниками, доступными через Airflow», - заявил ЛаНив.
Обновление также упрощает плавные обновления и откаты конфигураций конвейеров данных. Если конвейер терпит неудачу, пользователи могут быстро вернуть предыдущую конфигурацию, в то время как платформа проводит проверки совместимости перед применением обновлений, чтобы обеспечить бесперебойную работу.
Обязательство Astronomer к ИИ
Astronomer все чаще используется для рабочих процессов в области ИИ. В ноябре компания объявила о интеграциях с различными поставщиками ИИ, включая OpenAI, Cohere, Pinecone, OpenSearch, Weaviate и pgvector.
Astronomer также представила архитектуру-образец для создания и развертывания приложений на основе больших языковых моделей (LLM). Публичная демонстрация, доступная на ask.astronomer.io, демонстрирует, как консолидировать документацию из множества источников, используя стратегию возвышенной генерации с помощью извлечения (RAG).
ЛаНив видит широкое использование Airflow и платформы Astro для обучения моделей ИИ. «Чтобы гарантировать, что ваши модели обучаются с актуальными данными, надежность имеет первостепенное значение, и именно для этого были разработаны Astronomer и Airflow».