Главная страницаКатегория обработка и анализ данныхШаблоны проектирования в Data Engineering

Шаблоны проектирования в Data Engineering

Name: Шаблоны проектирования в Data Engineering
Price: 13 USD
Rating: 5 (5 reviews)

Data Engineering Design Patterns

Joseph Machado

★5 (всего оценок - 5)

Продолжительность

13 ч 15 мин

Категория

Обработка и анализ данных

Количество уроков

60 Видео

Дата добавления

27 мая 2026 г., 19:46

Язык

Английский

Повысьте уровень инженерии данных, освоив ключевые паттерны проектирования, которые лежат в основе надежных, масштабируемых и профессионально спроектированных data‑систем.Курс сочетает теорию, практику, живые сессии и большой финальный проект, позволяя перейти от хаотичного к системному подходу в работе с данными.

Обзор курса

Программа состоит из 61 урока и охватывает полный набор архитектурных паттернов, используемых в современной инженерии данных. Вы изучите подходы, которые помогают строить предсказуемые, идемпотентные, расширяемые и легко сопровождаемые пайплайны, а также подготовитесь к архитектурным интервью в ведущие компании.

Для кого этот курс

Целевая аудитория

Курс будет особенно полезен для Data Engineers, Analytics Engineers, разработчиков и архитекторов данных, которые хотят:

Перейти от набора скриптов к системному проектированию архитектуры.
Строить отказоустойчивые и масштабируемые пайплайны.
Уверенно проходить System Design интервью и архитектурные секции.

Программа курса

Проектирование хранилищ данных (Data Warehousing)

Ключевые темы

Фундаментальные подходы к аналитическому моделированию и проектированию хранилищ.

Моделирование по Kimball: типы измерений и фактов, лучшие практики.
Использование Python как слоя управления ETL.
Партиционирование и бакетинг для оптимизации хранения.
Матрица шины данных (Bus Matrix) для согласования требований.
Инкрементальные и full-refresh пайплайны.

Дизайн конвейеров данных (Data Pipeline Design)

Паттерны для повышения стабильности, предсказуемости и отказоустойчивости.

Разделение ответственности между слоями управления и исполнения.
Реализация SCD2 через MERGE INTO.
Дизайн пайплайнов с учетом Backfill.
Обработка Late arriving events.
Идемпотентность и самовосстановление пайплайнов.

Потоковая архитектура Medallion

Стандартизация и формализация потоков данных внутри компании.

3-hop архитектура: Bronze, Silver, Gold.
Проектирование широких OBT-таблиц с вложенными структурами.
Lambda-подход: частые и корректирующие запуски.

Качество данных (Data Quality)

Практики повышения доверия к данным и минимизации шумных алертов.

Паттерн WAP (Write-Audit-Publish).
Выбор эффективных типов проверок.
Интеграция Data Quality в продакшн.

Планирование и оркестрация (Airflow)

Построение управляемых пайплайнов c предсказуемыми зависимостями.

Паттерн «1 DAG = 1 Output».
Проброс временных диапазонов для инкрементальной загрузки.
Data-driven scheduling.
Архитектура Airflow под капотом.

Тестирование кода

Подходы для повышения надежности и предсказуемости системы.

Модульные тесты с Pytest.
Интеграционное тестирование смежных систем.

Контракты данных (Data Contracts)

Современный механизм формализации взаимодействия между поставщиками и потребителями данных.

Определение требований к структуре и качеству данных на стыке систем.

Дипломный проект (Capstone Project)

Финальный блок, где вы создадите полноценную архитектуру и продакшн-пайплайн по стандартам индустрии.

Проектирование архитектуры и потоков данных.
Построение пайплайнов для фактов и измерений.
Внедрение Data Quality checks.
Оркестрация процессов и визуализация результата.
Презентация проекта с упором на инженерную экспертизу.

Подготовка к собеседованиям

Пошаговая методика подготовки к интервью на позицию Data Engineer.

Алгоритмы и структуры данных.
Продвинутый SQL.
System Design, моделирование данных, метрики.
Behavioral interview по STAR.
Стратегия подготовки под конкретные компании.

Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум

Урок 1. 00:02:17
Welcome
Урок 2. 00:04:53
Course Objective & Code
Урок 3. 00:02:33
Data Overview
Урок 4. 01:48:48
Office Hours 2026-05-05
Урок 5. 01:35:25
Office Hours 2026-05-07
Урок 6. 01:26:33
Office Hours 2026-05-12
Урок 7. 01:30:30
Office Hours 2026-05-14
Урок 8. 01:09:18
Office Hours 2026-05-19
Урок 9. 00:09:23
What is a Data Warehouse
Урок 10. 00:06:27
Kimball Data Model
Урок 11. 00:03:49
Analytical queries involve joining fact and dimension tables and grouping by dimension attribute(s)
Урок 12. 00:05:16
Facts are generated by your system, the user's browser, or purchased from a third-party
Урок 13. 00:12:29
Dimensions represent a business concept
Урок 14. 00:10:36
Python for extracting, transforming, & loading data into a modelled destination
Урок 15. 00:09:08
Data Storage Patterns Partitioning for efficient reads & Bucketing for efficient joinsgroup by
Урок 16. 00:03:50
Bus Matrix Get everyone on the same page
Урок 17. 00:06:12
Pipeline Types Full refresh processes the entire source, and incremental processes a time range-specific source
Урок 18. 00:01:10
Recap
Урок 19. 00:03:00
Python enables you to control multiple systems
Урок 20. 00:10:25
Create SCD2 tables with MERGE INTO
Урок 21. 00:07:06
Backfills are inevitable, design your pipelines for them
Урок 22. 00:06:48
Wait to process the fact data until you are certain most of it has arrived
Урок 23. 00:05:28
Data pipeline scripts should be re-runnable without creating duplicate or partial data (aka idempotent)
Урок 24. 00:04:10
Self-healing pipelines make maintenance easy.
Урок 25. 00:01:39
Recap
Урок 26. 00:06:41
3-hop architecture Bronze is source, Silver is factdims, & Gold is summary tables
Урок 27. 00:09:15
Gold tables are for select from gold_tbl by end users
Урок 28. 00:09:11
Use nested data structures to create wide OBTs
Урок 29. 00:05:45
Run fact pipelines hourly for data availability and daily to catch late events (aka Lambda Architecture)
Урок 30. 00:00:53
Recap
Урок 31. 00:04:43
Check your data before end-users use it, with the WAP pattern
Урок 32. 00:06:17
Choose the type of data quality check based on the data
Урок 33. 00:09:13
Implementing DQ checks
Урок 34. 00:01:11
Recap
Урок 35. 00:13:42
Scheduling data pipelines with Apache Airflow
Урок 36. 00:11:20
Time range of data to be processed is supplied by Airflow
Урок 37. 00:10:46
Running pipeline when a dataset is updated
Урок 38. 00:04:43
Airflow Architecture
Урок 39. 00:02:10
Recap
Урок 40. 00:11:02
Check that your code does what you think it does with tests
Урок 41. 00:11:48
Use Pytest to manage tests
Урок 42. 00:04:49
Ensure systems work together as expected with Integration tests
Урок 43. 00:01:07
Recap
Урок 44. 00:08:06
Data contract defines your requirements
Урок 45. 00:03:48
Objective
Урок 46. 00:05:53
Define Outcomes
Урок 47. 00:04:27
Architecture & Data Flow
Урок 48. 00:07:58
Write code - Bronze & Silver
Урок 49. 00:07:25
Write code - Gold
Урок 50. 00:03:42
Data quality
Урок 51. 00:03:45
Visualizing outputs
Урок 52. 00:05:13
Orchestrate your pipelines & Present them
Урок 53. 00:02:11
Recap
Урок 54. 00:00:52
Interview Prep Is a Process, Not a Checklist
Урок 55. 00:17:42
Data Structures & Algorithms
Урок 56. 00:09:54
SQL & Data Manipulation
Урок 57. 00:13:54
System Design, Defining Metrics & Data Modeling
Урок 58. 00:04:56
Behavioral Interview
Урок 59. 00:02:18
Company Specific Preparation
Урок 60. 00:01:55
Recap

Автор - Joseph Machado

Joseph Machado

После более чем 15 лет разработки распределенных платформ данных, обрабатывающих эксабайты информации, я провел бесчисленное количество времени, продираясь через официальную документацию, малоизвестные блоги и метод проб и ошибок — и все это ради того, чтобы просто нащупать лучшие практики и реальные технологические компромиссы.Большинству обучающих ресурсов не хватало глубины. Они были либо оптимизированы под SEO-продвижение, либо спонсировались

Комментарии