Главная страницаКатегория обработка и анализ данныхПлатформа Данных и Проектирование Пайплайна

Платформа Данных и Проектирование Пайплайна

Name: Платформа Данных и Проектирование Пайплайна
Price: 13 USD
Rating: 2.5 (2 reviews)

Data Platform & Pipeline Design

Andreas Kretz

★2.5 (всего оценок - 2)

Продолжительность

1 ч 59 мин

Категория

Обработка и анализ данных

Количество уроков

26 Видео

Дата добавления

11 мая 2025 г., 00:09

Язык

Английский

Дата обновления

29 апр. 2026 г., 23:08

Этот курс — оптимальный старт для тех, кто хочет разбираться в современном устройстве дата‑платформ и уверенно проектировать пайплайны. Материал подаётся последовательно: от основ архитектуры и типов обработки до продвинутых паттернов, интеграций с облачными сервисами и ML/GenAI‑пайплайнов. Курс поможет не просто понять терминологию, но и научиться строить работающие системы, применимые в реальных продуктах.

Что вы узнаете на курсе

Курс даёт системное понимание платформ данных и всех ключевых типов пайплайнов, включая batch, streaming и ML‑процессы. Вы научитесь выбирать архитектуру под задачу, понимать её сильные стороны и подводные камни, а также связывать отдельные компоненты в единую экосистему.

Основы платформ и пайплайнов

Разбор базовых элементов дата‑платформы и типов пайплайнов, включая их структуру, наборы задач и область применения. Вы узнаете, как выглядит стандартный ML‑пайплайн и как он совмещается с другими типами обработки данных.

Архитектура платформы и сквозной End‑to‑End пайплайн

Детальная структура платформы: подключение источников, буферизация, преобразование данных, слои хранения и визуализация. На практическом примере вы увидите, как эти блоки объединяются в единый рабочий пайплайн.

Push и Pull пайплайны

Сравнение двух моделей передачи данных — отправки (push) и выборки (pull). Объясняются сценарии применения каждой модели и типичные ошибки при их смешивании.

Batch и Streaming пайплайны

Понимание различий между пакетной и потоковой обработкой. Разбор оптимальных сценариев использования, плюсов и минусов обеих моделей и типичных архитектурных решений.

Визуализация потоков и процессинга данных

Методы представления потоков, зависимостей и слоёв данных. Пример с Apache Spark помогает увидеть, как устроена потоковая обработка и хранение на практике.

Lambda‑архитектура

Как объединить batch и streaming пайплайны в одной платформе. Особенно полезно для ML‑систем, где обучение работает на batch‑данных, а inference — в режиме стриминга.

Реальные архитектуры популярных платформ

Разбор шаблонов на AWS, GCP, Azure и Hadoop. Вы увидите, как сервисы (например, API Gateway, Lambda, DynamoDB) встраиваются в полноценную архитектуру данных.

Продвинутые концепции

Вторая часть курса нацелена на расширение инженерного мышления и умение проектировать платформы «от цели», а не «от инструмента».

Модели обработки: событийная, batch, micro‑batch и streaming

Разбор отличий между ключевыми моделями обработки. Вы научитесь выбирать подход с учётом требований к задержке, пропускной способности и типу данных.

Проектирование на основе целей

Как сопоставлять бизнес‑цели, типы данных и архитектурные решения. Методология, которая помогает строить платформы рационально, без избыточных инструментов.

Современные архитектуры: Lakehouse и Medallion

Как совместить хранение файлов и транзакционные таблицы, и как трёхслойная структура bronze‑silver‑gold обеспечивает масштабируемость и предсказуемость данных.

ML и GenAI пайплайны

Интеграция машинного обучения в дата‑платформу: где происходит обучение моделей, где выполняется inference, как выполняется деплой. Рассматриваются ключевые концепции semantic search и Retrieval‑Augmented Generation (RAG).

Тестирование платформы данных

Стратегии тестирования пайплайнов: проверка загрузки, обработок, трансформаций и конечных слоёв. Вы узнаете, как обеспечить качество данных на всех этапах.

Почему этот курс полезен

Даёт целостное понимание платформ и пайплайнов.
Помогает быстро освоиться инженерам‑новичкам.
Углубляет компетенции тех, кто уже работает с архитектурами.
Ориентирован на реальные практики AWS, GCP, Azure и современных ML‑систем.

Если вам нужно научиться проектировать эффективные дата‑платформы — этот курс станет прочной основой.

Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум

Урок 1. 00:03:14
Introduction & Contents
Урок 2. 00:10:12
The Platform Blueprint
Урок 3. 00:02:45
Data Engineering Tools Guide
Урок 4. 00:06:19
End to End Pipeline Example
Урок 5. 00:03:43
Push Ingestion Pipelines
Урок 6. 00:03:35
Pull Ingestion Pipelines
Урок 7. 00:03:08
Batch Pipelines
Урок 8. 00:03:35
Streaming Pipelines
Урок 9. 00:02:27
Stream Analytics
Урок 10. 00:04:03
Lambda Architecture
Урок 11. 00:03:48
Visualization Pipelines
Урок 12. 00:06:22
Visualization with Hive & Spark on Hadoop
Урок 13. 00:03:28
Visualization Data via Spark Thrift Server
Урок 14. 00:01:17
Part 2 introduction
Урок 15. 00:02:58
Core Use Cases in Platform Design: Transactions, Analytics, and Reverse ETL
Урок 16. 00:03:32
Blueprint Recap: Mapping Tools Across the Modern Data Platform
Урок 17. 00:08:11
Demystifying Event-Driven, Batch, and Streaming Workflows in Data Platforms
Урок 18. 00:04:56
Micro-Batching vs. Streaming: WhatвЂ™s the Real Difference?
Урок 19. 00:06:29
Connecting Sources to Goals: Batch and Stream Processing in a Data Platform
Урок 20. 00:03:10
Building Blocks of a Modern Data Platform: Components, Storage, and Processing
Урок 21. 00:10:10
Before the Tech: How Data and Goals Shape Your Data Platform
Урок 22. 00:03:35
Lakehouse Architecture Explained: From Raw Files to Transactional Tables
Урок 23. 00:06:24
How Machine Learning Fits into Data Platforms: Training, Inference, and Deployment
Урок 24. 00:06:07
From Embeddings to Answers: Understanding Semantic Search and Retrieval-Augmented Generation
Урок 25. 00:03:11
Testing in the Modern Data Platform: From Ingestion to Transformation
Урок 26. 00:02:26
Understanding the Medallion Architecture: Bronze, Silver, and Gold Layers in Data Warehousing

Автор - Andreas Kretz

Andreas Kretz

Я - старший инженер по данным и тренер, техноэнтузиаст и отец. Уже более десяти лет я увлечён Data Engineering. Сначала я стал инженером по данным самоучкой, а затем возглавил команду инженеров по данным в крупной компании. Когда я понял, насколько велика потребность в обучении в этой сфере, я последовал за своей страстью и основал собственную Академию Data Engineering. С тех пор я помог более чем 2 000 студентам достичь своих целей.

+26

Комментарии

anonKwesi
13 мая 2025 г., 16:24
@admin, is there plans to include the rest of the courses? - https://learndataengineering.com/p/all-courses