Главная страницаКатегория обработка и анализ данныхApache Spark для дата-инженеров

Apache Spark для дата-инженеров

Name: Apache Spark для дата-инженеров
Price: 13 USD
Rating: 5 (3 reviews)

Spark for Data Engineers

Joseph Machado

★5 (всего оценок - 3)

Продолжительность

4 ч 28 мин

Категория

Обработка и анализ данных

Количество уроков

15 Видео

Дата добавления

27 мая 2026 г., 20:06

Язык

Английский

Освойте Apache Spark — один из ключевых инструментов дата-инженера. Этот курс поможет вам уверенно работать с распределённой обработкой данных, оптимизировать пайплайны и создавать производительные архитектуры для Big Data‑проектов. Минимум теории, максимум практики — весь материал ориентирован на реальные рабочие задачи.

Что вас ждёт в этом курсе

Вы пройдёте путь от настройки окружения до разработки полноценного end‑to‑end конвейера обработки данных. Курс построен как практический воркшоп, в котором каждая тема закрепляется через задания и работу с реальными датасетами.

Программа курса

1. Введение, цели и подготовка окружения

Вы познакомитесь с тематикой курса и результатами, к которым придёте. Шаг за шагом настроите локальную среду и инфраструктуру для выполнения практических заданий, что позволит сразу перейти к работе с Spark‑кластерами.

2. Обработка данных в Apache Spark

Подробное изучение внутренней архитектуры Spark и ключевых инструментов для распределённой обработки данных:

Spark I/O: особенности чтения и записи данных из разных систем и форматов.
DataFrame API: эффективное написание аналитического кода на базе Spark SQL.
Архитектура приложений: взаимодействие Driver и Executors, распределение задач.
Трансформации: различия между Narrow и Wide преобразованиями и их влияние на производительность.
Query Plan: разбор физических и логических планов выполнения запросов.
Spark UI: анализ джоб, стадий и поиск узких мест в производительности.

3. Паттерны хранения данных для оптимизации пайплайнов

Вы изучите, как правильно организовывать данные для ускорения аналитики и уменьшения нагрузки на кластеры:

Колоночный формат: преимущества современных форматов хранения (Parquet, ORC).
Партиционирование: оптимизация структуры папок с учётом частых запросов.
Бакетирование: эффективное разбиение высококардинальных колонок.

4. Оптимизация процессов в Apache Spark

Рабочие техники ускорения Spark‑приложений и улучшения их стабильности:

Оптимизация кода: практики написания производительных трансформаций.
Конфигурации Spark: параметры, влияющие на распределение ресурсов и скорость выполнения задач.

5. Финальный дипломный проект (Capstone Project)

На завершающем этапе вы соберёте полный конвейер обработки данных от загрузки до визуализации результатов:

Реальный датасет: работа со структурированными данными StackOverflow объёмом около 50 ГБ.
End‑to‑end решение: постановка целей, проектирование архитектуры, обработка, оптимизация и создание финальных дашбордов с KPI.

Кому подойдёт этот курс

Курс будет полезен дата-инженерам, аналитикам, backend‑разработчикам и всем, кто хочет углубиться в работу с распределёнными вычислениями и промышленными пайплайнами данных.

Результаты обучения

Уверенное владение Apache Spark и DataFrame API.
Навыки оптимизации запросов, пайплайнов и архитектуры данных.
Понимание внутренних механизмов распределённой обработки.
Готовый проект для портфолио на реальном Big Data‑датасете.

Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум

Урок 1. 00:05:50
Course Objective
Урок 2. 00:03:10
Downloading the code & Setting up Infrastructure
Урок 3. 00:05:39
Setting up data and how to use the notebooks for this course
Урок 4. 00:25:24
[Spark IO] Spark can read data from and write data to most systems and formats
Урок 5. 00:22:17
[Dataframe API] is the Pythonic equivalent of Spark SQL
Урок 6. 00:08:42
[Spark application] is made up of one driver and one-or-more executor
Урок 7. 00:25:09
[Distributed data transformations] are of two types Narrow & Wide
Урок 8. 00:21:40
[Query plan] is how Spark plans to execute your logic
Урок 9. 00:21:58
[Spark UI] to see statistics of how your data was processed
Урок 10. 00:23:05
[Columnar format] is critical for large-scale data warehousing
Урок 11. 00:21:06
[Partitioning] Splitting data into folders based on commonly filtered-column(s)
Урок 12. 00:17:05
[Bucketing] is partitioning for high-cardinality columns
Урок 13. 00:15:51
[Coding Techniques] for Optimal Data Processing in Apache Spark
Урок 14. 00:17:14
[Spark Configurations] for optimal data processing
Урок 15. 00:34:01
[End-to-end data pipeline] for 50GB Stackoverflow Data Analysis

Автор - Joseph Machado

Joseph Machado

После более чем 15 лет разработки распределенных платформ данных, обрабатывающих эксабайты информации, я провел бесчисленное количество времени, продираясь через официальную документацию, малоизвестные блоги и метод проб и ошибок — и все это ради того, чтобы просто нащупать лучшие практики и реальные технологические компромиссы.Большинству обучающих ресурсов не хватало глубины. Они были либо оптимизированы под SEO-продвижение, либо спонсировались

Комментарии