Apache Airflow 3.0: от трубопроводов до вывода ИИ

Примерно 10 лет назад Apache Airflow запустил относительно простую, но вневременную предпосылку. Первоначально он был разработан как средство, позволяющее разработчикам и инженерам данных писать трубопроводы данных в качестве кода.

Благодаря недавнему выпуску версии решения 3.0, все более популярный ресурс управления рабочими процессами с открытым исходным кодом теперь предлагает множество новых функций для поддержки предприятий.

Существуют элементы управления версиями для трубопроводов данных — называемые направленными ациклическими графами (DAGS) — улучшенные функции безопасности, а конструкции, лежащие в основе выполнения вывода искусственного интеллекта.

Новые разработки платформы, вызванные постоянно активным сообществом с открытым исходным кодом, значительно увеличивают множество вариантов использования, которые она поддерживает.

Несмотря на то, что он все еще является основой для интеграции данных и усилий по оркестрованию данных, теперь она расширяется в развертывание науки о данных и машинного обучения.

По словам Викрама Кока, директора по стратегии в астрономере и Apache Airflow Committer, «по мере роста внедрения воздушного потока, теперь мы видим 30% наших пользователей, использующих воздушный поток для MLOPS. Мы видим 10% наших пользователей, использующих его для генеративных приложений AI».

Выпуск 3.0 имеет несколько возможностей, которые поддерживают каждую из этих разработок, одновременно усиливая его стоимость капитала обслуживания рабочих процессов, управляемых данными, через код на основе Python.

DAG версия управляет

Одной из самых горизонтально применимых функций издания воздушного потока 3.0 является использование версий, которые он предоставляет для трубопроводов данных или DAG.

Перед выпуском система функционировала так, как будто пользователи заботились исключительно о самой последней версии кода для этих задач.

Новая версия платформы позволяет разработчикам увидеть предыдущие воплощения DAGS, а также множество других соответствующих проблем, в том числе «все элементы операции», сказал Кока. «Журналы, диагностика, метрики… все в этом, вы можете вернуться назад и посмотреть».

Эта функциональность является ключевой для нескольких команд разработчиков, работающих над DAGS, или даже на соответствующих частях одного и того же DAG. Это также полезно для наследственных трубопроводов данных, когда их первоначальные авторы переключили задания или проекты.

Наиболее распространенный случай использования, вероятно, влечет за собой попытки отладки и забрать, почему части трубопроводов данных сломаны, или как их можно улучшить, чтобы максимизировать эффективность.

Версии Airflow DAG довольно подробно, включая аспекты предыдущей истории DAGS, такие как «Каковы были журналы этой предыдущей истории; какова была структура этой предыдущей истории», — прокомментировал Кока. «Сколько времени потребовалось, чтобы работать в исторической версии? Возможность взглянуть на все пробеги DAG, основанные на предыдущих воплощениях этого трубопровода или DAG, тогда становится более важным».

Отдельные улучшения безопасности

Airflow 3.0 также повысила свои функции безопасности, чтобы сделать платформу достойной производства предприятия. Его главным обновлением безопасности является отделение возможностей выполнения задач от администрирования, планирования и общих возможностей оркестровки, предоставленных решением.

Компоненты сервера Airflow теперь включают «сервер API, который в основном может читать и записать в базу данных метаданных воздушного потока», — сказал Кока. «И затем мы предоставляем то, что называется задачей SDK, который является клиентским компонентом, который изначально находится в Python. Таким образом, весь пользовательский код работает только в контексте этой задачи SDK».

С помощью этой парадигмы код задачи SDK напрямую не подключается к базе данных метаданных воздушного потока, предотвращая непосредственное написание рабочих процессов. Вместо этого задания, указанные в интерфейсе задачи SDK с сервером API, для отчета и получения статуса заданий. Результатом является «более сильная осанка контроля доступа к безопасности», объяснил Кока. Кока также упомянул, что задача SDK для Голанга будет доступна неизбежно, и что члены сообщества просят задачу SDK при поддержке ржавчины.

Удаленное исполнение

Одним из наиболее убедительных последствий развязки возможностей выполнения задач воздушного потока от других своих основных функций является то, что он эффективно позволяет выполнять задачи, где они хотели бы, чтобы пользователи хотели бы. В некоторых случаях эта широта может укрепить контроль за безопасностью и управлением данными — например, выполнение рабочих мест по данным, соответствующим правилам финансовой отрасли в частном облаке, поэтому он не покидает конкретный центр обработки данных.

Для этого варианта использования такие данные «могут быть организованы в центре, но по -прежнему остаются полностью локальными для этого конкретного обратного центра для суверенитета данных», — сказал Кока.

Сервер API предоставляет централизованную оркестровку, на которую ссылается KOKA, в то время как его отделение от задачи SDK позволяет заданиям работать в совершенно разных кластерах, в государственных или частных облаках или везде, где указывают организации. «У вас может быть несколько рабочих мест ML, которые выиграют от графических процессоров», — прокомментировал Кока.

«Вы можете запустить их в совершенно отдельном кластере графических процессоров. Вам не нужно добавлять расходы на наличие этих графических процессоров на вашем кластере. Вы можете просто пойти и арендовать кластер графических процессоров, когда возникает необходимость».

Варианты планирования

Выпуск 3.0 по -прежнему поддерживает, но в то же время существенно расширяется, традиционная пакетная парадигма для планирования заданий трубопровода данных. Несколько режимов для задач планирования теперь доступны, в том числе:

  • Планирование на основе событий: С помощью этой опции организации могут запускать рабочие процессы на основе изменений данных во внешних системах. Существуют также последствия с низкой задержкой, такие как полагаться на этот метод планирования, чтобы запустить определенные компоненты трубопровода на основе данных, прибывающих в Кафку. «Это позволяет воздушному потоку реагировать на изменения данных в остальной части экосистемы», — отметил Кока. «Это больше близко к обработке событий в реальном времени».
  • Одновременное исполнение DAG: Этот подход планирования полезен для выводов модели машинного обучения. «Вы действительно хотите иметь возможность управлять многими из них одновременно», — сказал Кока. «Мы добавили поддержку выполнения вывода, чтобы вы могли одновременно запустить множество этих трубопроводов входящих данных».
  • Специальное планирование: Концептуально, есть некоторое совпадение между этим сортом планирования и планированием, управляемым событиями. Тем не менее, «я, как правило, склонна думать об этом как о чем-то, что запускается на основе почти как человеческое событие или событие, вызванное человеком»,-сказал Кока. «Что -то вроде заявки на ипотеку, которое появляется, или кто -то, кто говорит, что я хочу запустить DAG в результате API, который из какой -то другой системы, вызванной человеческим действием».

Созревание предприятия

Apache Airflow 3.0 Управление версией версий, обновления безопасности, возможности удаленного выполнения и гибкость планирования заданий делает его полезным для расширяющего количества вариантов использования. Последнее издание также допускает засыпание, поэтому организации могут асинхронно повторить пропущенные задачи, отслеживать их прогресс и отменить их.

Каждое из этих разработок сигнализирует о переходе инструмента авторизации и развертывания трубопроводов от одного желаемого разработчиками и инженерами в задних залах, к тем, которые развернуты в предприятиях.

Trending Stories youtube.com/thenewstack Tech движется быстро, не пропустите эпизод. Подпишитесь на наш канал YouTube, чтобы транслировать все наши подкасты, интервью, демонстрации и многое другое. Группа подпишитесь с эскизом. Jelani Harper работал аналитиком, руководителем исследований, консультантом по информационным технологиям и журналистам более 10 лет. В течение этого времени он помогал бесчисленным поставщикам и публикациям в области управления данными, разрабатывать, сочинять и поместить … Подробнее от Jelani Harper

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *