Apache Airflow - это независимый от платформы инструмент для оркестрации рабочих процессов, который предоставляет широкие возможности для создания и мониторинга как потоковых, так и пакетных (batch) пайплайнов. Даже самые сложные процессы легко реализуются с его помощью - и всё это с поддержкой ключевых платформ и инструментов мира Data Engineering, включая AWS, Google Cloud и другие.
Airflow позволяет не только планировать и управлять процессами, но и отслеживать выполнение заданий в реальном времени, а также быстро находить и устранять ошибки.
Если кратко: сегодня Airflow - один из самых востребованных и «хайповых» инструментов в сфере оркестрации пайплайнов. Он активно используется в компаниях по всему миру, и знание Airflow становится важным навыком для любого data engineer. Особенно это актуально для студентов, начинающих свой путь в этой области.
Базовые концепции Airflow
Введение в основы работы с Airflow: вы узнаете, как создаются DAG’и (направленные ациклические графы), из чего они состоят (операторы, задачи), и как устроена архитектура Airflow - включая базу данных, планировщик и веб-интерфейс. Также рассмотрим примеры событийных пайплайнов, которые можно реализовать с помощью Airflow.
Установка и настройка окружения
На практике вы будете работать с проектом по обработке погодных данных. DAG будет получать данные из погодного API, трансформировать их и сохранять в базу Postgres. Вы научитесь:
настраивать окружение с помощью Docker;
проверять работу веб-интерфейса и контейнеров;
конфигурировать API и создавать необходимые таблицы в базе данных.
Практика: создание DAG’ов
Вы подробно разберётесь с интерфейсом Airflow и научитесь отслеживать статус задач. Затем:
создадите DAG’и на базе Airflow 2.0, которые получают и обрабатывают данные;
освоите Taskflow API - современный подход к построению DAG’ов с более удобным синтаксисом;
реализуете параллельное выполнение задач (fanout) для запуска нескольких процессов одновременно.
Посмотреть больше
Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум
Ограничение времени просмотра
Вы можете просматривать пробный урок только 10 минут. Получите полный доступ, чтобы смотреть без ограничений.
Я - старший инженер по данным и тренер, техноэнтузиаст и отец. Уже более десяти лет я увлечён Data Engineering. Сначала я стал инженером по данным самоучкой, а затем возглавил команду инженеров по данным в крупной компании. Когда я понял, насколько велика потребность в обучении в этой сфере, я последовал за своей страстью и основал собственную Академию Data Engineering. С тех пор я помог более чем 2 000 студентам достичь своих целей.
Команда внимательно читает ваши комментарии и оперативно на них реагирует. Вы можете спокойно оставлять запросы на обновления или задавать любые вопросы о курсе здесь.
После прохождения курса вы научитесь работать с архитектурой, основными концепциями Apache Airflow и приобретете практические навыки разработки ETL процессов.
Apache Airflow — это платформа, созданная сообществом для программного создания, планирования и мониторинга рабочих процессов. Он масштабируемый, динамичный, расширяемый и модулируемый. Без сомнения, освоение Airflow становится обязательным и привлекательным навыком для всех, кто работает с данными.
Apache Airflow это самый популярный workflow менеджер в экосистеме Python. Его используют такие IT-гиганты как Airbnb, Google, Amazon, Netflix и многие другие. Ни для кого не секрет, что практически во всех вакансиях на позицию дата-инженера присутствует требование опыта работы с Apache Airflow.
Этот практический курс начинается с основ и шаг за шагом подводит вас к построению реальных сценариев оркестрации - от повторных попыток выполнения задач до интеграции со Spark и загрузки внешних данных.Переместить данные из точки A в точку B - лишь малая часть задачи. Важно, чтобы данные доставлялись точно, надёжно и автоматически - и здесь на помощь приходит Apache Airflow.Вы научитесь превращать хаотичные, вручную настроенные пайплайны в чётко