Apache Airflow - это независимый от платформы инструмент для оркестрации рабочих процессов, который предоставляет широкие возможности для создания и мониторинга как потоковых, так и пакетных (batch) пайплайнов. Даже самые сложные процессы легко реализуются с его помощью - и всё это с поддержкой ключевых платформ и инструментов мира Data Engineering, включая AWS, Google Cloud и другие.
Airflow позволяет не только планировать и управлять процессами, но и отслеживать выполнение заданий в реальном времени, а также быстро находить и устранять ошибки.
Если кратко: сегодня Airflow - один из самых востребованных и «хайповых» инструментов в сфере оркестрации пайплайнов. Он активно используется в компаниях по всему миру, и знание Airflow становится важным навыком для любого data engineer. Особенно это актуально для студентов, начинающих свой путь в этой области.
Базовые концепции Airflow
Введение в основы работы с Airflow: вы узнаете, как создаются DAG’и (направленные ациклические графы), из чего они состоят (операторы, задачи), и как устроена архитектура Airflow - включая базу данных, планировщик и веб-интерфейс. Также рассмотрим примеры событийных пайплайнов, которые можно реализовать с помощью Airflow.
Установка и настройка окружения
На практике вы будете работать с проектом по обработке погодных данных. DAG будет получать данные из погодного API, трансформировать их и сохранять в базу Postgres. Вы научитесь:
настраивать окружение с помощью Docker;
проверять работу веб-интерфейса и контейнеров;
конфигурировать API и создавать необходимые таблицы в базе данных.
Практика: создание DAG’ов
Вы подробно разберётесь с интерфейсом Airflow и научитесь отслеживать статус задач. Затем:
создадите DAG’и на базе Airflow 2.0, которые получают и обрабатывают данные;
освоите Taskflow API - современный подход к построению DAG’ов с более удобным синтаксисом;
реализуете параллельное выполнение задач (fanout) для запуска нескольких процессов одновременно.
Посмотреть больше
Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум
Урок 1.
00:01:37
Introduction
Урок 2.
00:03:20
Airflow Usage
Урок 3.
00:02:48
Fundamental Concepts
Урок 4.
00:03:10
Airflow Architecture
Урок 5.
00:04:50
Example Pipelines
Урок 6.
00:02:18
Spotlight 3rd Party Operators
Урок 7.
00:04:33
Airflow XComs
Урок 8.
00:01:44
Project Setup
Урок 9.
00:02:07
Docker Setup Explained
Урок 10.
00:04:24
Docker Compose & Starting Containers
Урок 11.
00:01:49
Checking Services
Урок 12.
00:01:34
Setup WeatherAPI
Урок 13.
00:01:59
Setup Postgres DB
Урок 14.
00:04:38
Airflow Webinterface
Урок 15.
00:09:47
Creating DAG With Airflow 2.0
Урок 16.
00:04:16
Running our DAG
Урок 17.
00:07:00
Creating DAG With TaskflowAPI
Урок 18.
00:03:39
Getting Data From the API With SimpleHTTPOperator
Урок 19.
00:04:13
Writing into Postgres
Урок 20.
00:04:16
Parallel Processing
Урок 21.
00:04:39
Recap & Outlook
Автор - Andreas Kretz
Andreas Kretz
Я - старший инженер по данным и тренер, техноэнтузиаст и отец. Уже более десяти лет я увлечён Data Engineering. Сначала я стал инженером по данным самоучкой, а затем возглавил команду инженеров по данным в крупной компании. Когда я понял, насколько велика потребность в обучении в этой сфере, я последовал за своей страстью и основал собственную Академию Data Engineering. С тех пор я помог более чем 2 000 студентам достичь своих целей.
Команда внимательно читает ваши комментарии и оперативно на них реагирует. Вы можете спокойно оставлять запросы на обновления или задавать любые вопросы о курсе здесь.
После прохождения курса вы научитесь работать с архитектурой, основными концепциями Apache Airflow и приобретете практические навыки разработки ETL процессов.
Apache Airflow — это платформа, созданная сообществом для программного создания, планирования и мониторинга рабочих процессов. Он масштабируемый, динамичный, расширяемый и модулируемый. Без сомнения, освоение Airflow становится обязательным и привлекательным навыком для всех, кто работает с данными.
Apache Airflow это самый популярный workflow менеджер в экосистеме Python. Его используют такие IT-гиганты как Airbnb, Google, Amazon, Netflix и многие другие. Ни для кого не секрет, что практически во всех вакансиях на позицию дата-инженера присутствует требование опыта работы с Apache Airflow.
Этот практический курс начинается с основ и шаг за шагом подводит вас к построению реальных сценариев оркестрации - от повторных попыток выполнения задач до интеграции со Spark и загрузки внешних данных.Переместить данные из точки A в точку B - лишь малая часть задачи. Важно, чтобы данные доставлялись точно, надёжно и автоматически - и здесь на помощь приходит Apache Airflow.Вы научитесь превращать хаотичные, вручную настроенные пайплайны в чётко