Apache Airflow - это независимый от платформы инструмент для оркестрации рабочих процессов, который предоставляет широкие возможности для создания и мониторинга как потоковых, так и пакетных (batch) пайплайнов. Даже самые сложные процессы легко реализуются с его помощью - и всё это с поддержкой ключевых платформ и инструментов мира Data Engineering, включая AWS, Google Cloud и другие.
Airflow позволяет не только планировать и управлять процессами, но и отслеживать выполнение заданий в реальном времени, а также быстро находить и устранять ошибки.
Если кратко: сегодня Airflow - один из самых востребованных и «хайповых» инструментов в сфере оркестрации пайплайнов. Он активно используется в компаниях по всему миру, и знание Airflow становится важным навыком для любого data engineer. Особенно это актуально для студентов, начинающих свой путь в этой области.
Базовые концепции Airflow
Введение в основы работы с Airflow: вы узнаете, как создаются DAG’и (направленные ациклические графы), из чего они состоят (операторы, задачи), и как устроена архитектура Airflow - включая базу данных, планировщик и веб-интерфейс. Также рассмотрим примеры событийных пайплайнов, которые можно реализовать с помощью Airflow.
Установка и настройка окружения
На практике вы будете работать с проектом по обработке погодных данных. DAG будет получать данные из погодного API, трансформировать их и сохранять в базу Postgres. Вы научитесь:
настраивать окружение с помощью Docker;
проверять работу веб-интерфейса и контейнеров;
конфигурировать API и создавать необходимые таблицы в базе данных.
Практика: создание DAG’ов
Вы подробно разберётесь с интерфейсом Airflow и научитесь отслеживать статус задач. Затем:
создадите DAG’и на базе Airflow 2.0, которые получают и обрабатывают данные;
освоите Taskflow API - современный подход к построению DAG’ов с более удобным синтаксисом;
реализуете параллельное выполнение задач (fanout) для запуска нескольких процессов одновременно.
Посмотреть больше
Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум
Ограничение времени просмотра
Вы можете просматривать пробный урок только 10 минут. Получите полный доступ, чтобы смотреть без ограничений.
Я - старший инженер по данным и тренер, техноэнтузиаст и отец. Уже более десяти лет я увлечён Data Engineering. Сначала я стал инженером по данным самоучкой, а затем возглавил команду инженеров по данным в крупной компании. Когда я понял, насколько велика потребность в обучении в этой сфере, я последовал за своей страстью и основал собственную Академию Data Engineering. С тех пор я помог более чем 2 000 студентам достичь своих целей.