Apache Airflow — это платформа, созданная сообществом для программного создания, планирования и мониторинга рабочих процессов. Он масштабируемый, динамичный, расширяемый и модулируемый. Без сомнения, освоение Airflow становится обязательным и привлекательным навыком для всех, кто работает с данными.
Чему вы научитесь на курсе:
Объясняются основы Airflow, например, что такое Airflow, как работает планировщик и веб-сервер.
Проект Forex Data Pipeline — это невероятный способ открыть для себя множество операторов в Airflow и разобраться со Slack, Spark, Hadoop и другими.
Освоение ваших DAG является главным приоритетом, и вы сможете играть с часовыми поясами, модульным тестированием ваших DAG, структурированием вашей папки DAG и многим другим.
Будет подробно объяснено масштабирование Airflow через различные исполнители, такие как Local Executor, Celery Executor и Kubernetes Executor. Вы узнаете, как специализировать своих воркеров, как добавлять новых воркеров, что происходит при сбое узла.
Кластер Kubernetes из 3 узлов будет настроен с Rancher, Airflow и Kubernetes Executor локально для запуска ваших конвейеров данных.
Расширенные концепции будут показаны на практических примерах, таких как создание шаблонов для ваших DAG, как сделать вашу DAG зависимой от другой, что такое Subdag и взаимоблокировки и многое другое.
Вы настроите кластер Kubernetes в облаке с AWS EKS и Rancher, чтобы использовать Airflow вместе с Kubernetes Executor.
Мониторинг чрезвычайно важен! Вот почему вы будете знать, как это сделать с помощью Elasticsearch и Grafana.
Также будет обеспечена безопасность, чтобы ваш экземпляр Airflow соответствовал требованиям вашей компании. Указание ролей и разрешений для ваших пользователей с помощью RBAC, предотвращение доступа к пользовательскому интерфейсу Airflow с помощью аутентификации и пароля, шифрования данных и т. д.
Посмотреть больше
Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум
Ограничение времени просмотра
Вы можете просматривать пробный урок только 10 минут. Получите полный доступ, чтобы смотреть без ограничений.
Start_date and schedule_interval parameters demystified
Урок 31.
00:11:04
[Practice] Manipulating the start_date with schedule_interval
Урок 32.
00:04:02
Backfill and Catchup
Урок 33.
00:14:59
[Practice] Catching up non triggered DAGRuns
Урок 34.
00:06:51
Dealing with timezones in Airflow
Урок 35.
00:13:55
[Practice] Making your DAGs timezone aware
Урок 36.
00:03:58
How to make your tasks dependent
Урок 37.
00:12:27
[Practice] Creating task dependencies between DagRuns
Урок 38.
00:04:39
How to structure your DAG folder
Урок 39.
00:09:35
[Practice] Organizing your DAGs folder
Урок 40.
00:07:17
[Practice] How the Web Server works
Урок 41.
00:04:20
How to deal with failures in your DAGs
Урок 42.
00:18:33
[Practice] Retry and Alerting
Урок 43.
00:07:18
How to test your DAGs
Урок 44.
00:14:12
[Practice] Unit testing your DAGs
Урок 45.
00:01:04
Introduction
Урок 46.
00:03:39
Sequential Executor with SQLite
Урок 47.
00:07:18
Local Executor with PostgreSQL
Урок 48.
00:18:36
[Practice] Executing tasks in parallel with the Local Executor
Урок 49.
00:15:40
[Practice] Ad Hoc Queries with the metadata database
Урок 50.
00:05:02
Scale out Apache Airflow with Celery Executors and Redis
Урок 51.
00:07:02
[Practice] Set up the Airflow cluster with Celery Executors and Docker
Урок 52.
00:11:16
[Practice] Distributing your tasks with the Celery Executor
Урок 53.
00:21:00
[Practice] Adding new worker nodes with the Celery Executor
Урок 54.
00:12:45
[Practice] Sending tasks to a specific worker with Queues
Урок 55.
00:11:19
[Practice] Pools and priority_weights: Limiting parallelism - prioritizing tasks
Урок 56.
00:07:01
Kubernetes Reminder
Урок 57.
00:05:17
Scaling Airflow with Kubernetes Executors
Урок 58.
00:10:52
[Practice] Set up a 3 nodes Kubernetes Cluster with Vagrant and Rancher
Урок 59.
00:09:57
[Practice] Installing Airflow with Rancher and the Kubernetes Executor
Урок 60.
00:10:46
[Practice] Running your DAGs with the Kubernetes Executor
Урок 61.
00:00:56
Introduction
Урок 62.
00:02:37
Minimising Repetitive Patterns With SubDAGs
Урок 63.
00:09:50
[Practice] Grouping your tasks with SubDAGs and Deadlocks
Урок 64.
00:03:11
Making different paths in your DAGs with Branching
Урок 65.
00:09:49
[Practice] Make Your First Conditional Task Using Branching
Урок 66.
00:04:39
Trigger rules for your tasks
Урок 67.
00:13:14
[Practice] Changing how your tasks are triggered
Урок 68.
00:04:41
Avoid hard coding values with Variables, Macros and Templates
Урок 69.
00:18:33
[Practice] Templating your tasks
Урок 70.
00:04:00
How to share data between your tasks with XCOMs
Урок 71.
00:09:59
[Practice] Sharing (big?) data with XCOMs
Урок 72.
00:02:18
TriggerDagRunOperator or when your DAG controls another DAG
Урок 73.
00:05:25
[Practice] Trigger a DAG from another DAG
Урок 74.
00:04:43
Dependencies between your DAGs with the ExternalTaskSensor
Урок 75.
00:03:48
[Practice] Make your DAGs dependent with the ExternalTaskSensor
Урок 76.
00:01:29
Introduction
Урок 77.
00:03:46
Quick overview of AWS EKS
Урок 78.
00:08:18
[Practice] Set up an EC2 instance for Rancher
Урок 79.
00:02:35
[Practice] Create an IAM User with permissions
Урок 80.
00:06:50
[Practice] Create an ECR repository
Урок 81.
00:06:22
[Practice] Create an EKS cluster with Rancher
Урок 82.
00:04:20
How to access your applications from the outside
Урок 83.
00:04:57
[Practice] Deploy Nginx Ingress with Catalogs (Helm)
Урок 84.
00:05:22
[Practice] Deploy and run Airflow with the Kubernetes Executor on EKS
Урок 85.
00:02:51
[Practice] Cleaning your AWS services
Урок 86.
00:01:29
Introduction
Урок 87.
00:03:44
How the logging system works in Airflow
Урок 88.
00:17:17
[Practice] Setting up custom logging
Урок 89.
00:14:41
[Practice] Storing your logs in AWS S3
Урок 90.
00:04:14
Elasticsearch Reminder
Урок 91.
00:18:09
[Practice] Configuring Airflow with Elasticsearch
Урок 92.
00:10:41
[Practice] Monitoring your DAGs with Elasticsearch
Урок 93.
00:04:34
Introduction to metrics
Урок 94.
00:12:13
[Practice] Monitoring Airflow with TIG stack
Урок 95.
00:11:31
[Practice] Triggering alerts for Airflow with Grafana
Урок 96.
00:03:00
Airflow maintenance DAGs
Урок 97.
00:00:55
Introduction
Урок 98.
00:16:55
[Practice] Encrypting sensitive data with Fernet
Урок 99.
00:07:21
[Practice] Rotating the Fernet Key
Урок 100.
00:03:25
[Practice] Hiding variables
Урок 101.
00:09:39
[Practice] Password authentication and filter by owner
Урок 102.
00:14:17
[Practice] RBAC UI
Урок 103.
00:10:42
What to expect from Airflow 2.0?
Урок 104.
00:19:36
[VIDEO] The DockerOperator: The basics and more
Автор - udemy
udemy
Udemy - одна из самых больших площадок в мире по доставке обучающего контента от разных авторов всего мира. Присутсвуют курсы практически на любую тему.
Команда внимательно читает ваши комментарии и оперативно на них реагирует. Вы можете спокойно оставлять запросы на обновления или задавать любые вопросы о курсе здесь.
Apache Airflow это самый популярный workflow менеджер в экосистеме Python. Его используют такие IT-гиганты как Airbnb, Google, Amazon, Netflix и многие другие. Ни для кого не секрет, что практически во всех вакансиях на позицию дата-инженера присутствует требование опыта работы с Apache Airflow.
Этот курс является отличным дополнением ко многим курсам про стратегии алгоритмической торговли с использованием Python. Именно здесь вы узнаете как действительно сделать эти стратегии автоматическими, а не просто будете запускать ячейки в готовом Jupyter-notebook'е.
После прохождения курса вы научитесь работать с архитектурой, основными концепциями Apache Airflow и приобретете практические навыки разработки ETL процессов.
Apache Airflow - это независимый от платформы инструмент для оркестрации рабочих процессов, который предоставляет широкие возможности для создания и мониторинга как потоковых, так и пакетных (batch) пайплайнов. Даже самые сложные процессы легко реализуются с его помощью - и всё это с поддержкой ключевых платформ и инструментов мира Data Engineering, включая AWS, Google Cloud и другие.Airflow позволяет не только планировать и управлять процессами,
Этот практический курс начинается с основ и шаг за шагом подводит вас к построению реальных сценариев оркестрации - от повторных попыток выполнения задач до интеграции со Spark и загрузки внешних данных.Переместить данные из точки A в точку B - лишь малая часть задачи. Важно, чтобы данные доставлялись точно, надёжно и автоматически - и здесь на помощь приходит Apache Airflow.Вы научитесь превращать хаотичные, вручную настроенные пайплайны в чётко