Главная страницаКатегория обработка и анализ данныхИзучаем Apache Spark

Изучаем Apache Spark

Name: Изучаем Apache Spark
Price: 13 USD
Rating: 5 (1 reviews)

Learning Apache Spark

Andreas Kretz

★5 (всего оценок - 1)

Продолжительность

1 ч 44 мин

Категория

Обработка и анализ данных

Количество уроков

21 Видео

Дата добавления

23 мая 2025 г., 19:42

Язык

Английский

Дата обновления

29 апр. 2026 г., 23:16

Apache Spark — один из ключевых инструментов инженера данных, и грамотное владение им открывает путь к созданию надёжных, масштабируемых и быстрых систем обработки.

О чём этот курс и кому он подойдёт

Курс идеально подходит для начинающих и практикующих инженеров данных, аналитиков и разработчиков, которые хотят освоить распределённую обработку данных. Здесь вы не просто изучите теорию Spark, но и примените её на практике в удобной среде Jupyter Notebook.

Что вы узнаете об Apache Spark

Ключевые принципы и архитектура

Подробно разбираются важнейшие компоненты Spark: driver, executor, context, а также типы кластеров и особенности их работы. Вы научитесь понимать, как Spark управляет вычислениями и как правильно выбирать режимы работы.

Масштабируемость и типы данных

Вы узнаете разницу между горизонтальным и вертикальным масштабированием, поймёте, почему Spark так эффективен для Big Data, и какие форматы данных (структурированные и неструктурированные) он способен обрабатывать.

Рабочая среда и инструменты

Настройка Docker и Jupyter Notebook

Курс шаг за шагом проведёт через установку инструментов, подготовку окружения и запуск Spark-кластера в контейнерах. Это позволит быстро приступить к практике и избежать типичных ошибок конфигурации.

Описание датасета

Вам будет представлен рабочий датасет, на котором проводятся все упражнения — это приближает обучение к реальным задачам Data Engineering.

Практические навыки, которые вы освоите

Работа с RDD и DataFrame

Подробно изучаются различия между двумя основными абстракциями данных в Spark, их сильные стороны и типовые сценарии использования.

Преобразования и действия в Spark

Вы поймёте, как работают transformations и actions, как они формируют DAG и когда действительно запускаются вычисления. Рассматриваются наиболее распространённые операции.

Практикум в Jupyter Notebook

На GitHub доступен полный набор исходников, что позволит легко повторить и расширить примеры из уроков.

Что вы сделаете в практической части

научитесь применять преобразования данных в Spark;
освоите работу со схемами, колонками и типами данных;
разберётесь с загрузкой и обработкой JSON и CSV;
научитесь объединять и преобразовывать DataFrames;
попробуете использовать Spark SQL в реальных задачах;
получите опыт работы с RDD для неструктурированных данных.

Что даёт прохождение курса

По итогам вы сможете самостоятельно писать Spark‑джобы, оптимизировать их и применять Spark в составе более сложных ETL‑пайплайнов. Это делает курс отличной ступенью для развития в Data Engineering, Big Data и распределённых вычислениях.

Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум

Урок 1. 00:03:31
Introduction & Contents
Урок 2. 00:03:56
Why Spark - Vertical vs Horizontal Scaling
Урок 3. 00:04:46
What Spark Is Good For
Урок 4. 00:04:12
Spark Driver, Context & Executors
Урок 5. 00:02:00
Cluster Types
Урок 6. 00:06:12
Client vs Cluster Deployment
Урок 7. 00:03:39
Where to Run Spark
Урок 8. 00:02:36
Tools in the Spark Course
Урок 9. 00:04:13
The Dataset
Урок 10. 00:02:53
Docker Setup
Урок 11. 00:05:32
Jupyter Notebook Setup & Run
Урок 12. 00:03:58
RDDs
Урок 13. 00:01:41
DataFrames
Урок 14. 00:03:00
Transformations & Actions Overview
Урок 15. 00:02:23
Transformations
Урок 16. 00:03:07
Actions
Урок 17. 00:09:53
Notebook 1: JSON Transformations
Урок 18. 00:08:24
Notebook 2: Working with Schemas
Урок 19. 00:10:10
Notebook 3: Working With DataFrames
Урок 20. 00:05:05
Notebook 4: SparkSQL
Урок 21. 00:12:53
Notebook 5: Working with RDDs

https://github.com/team-data-science/learning-apache-spark/tree/main/data

https://github.com/team-data-science/learning-apache-spark/tree/main/sources

https://github.com/team-data-science/learning-apache-spark

Автор - Andreas Kretz

Andreas Kretz

Я - старший инженер по данным и тренер, техноэнтузиаст и отец. Уже более десяти лет я увлечён Data Engineering. Сначала я стал инженером по данным самоучкой, а затем возглавил команду инженеров по данным в крупной компании. Когда я понял, насколько велика потребность в обучении в этой сфере, я последовал за своей страстью и основал собственную Академию Data Engineering. С тех пор я помог более чем 2 000 студентам достичь своих целей.

+26

Комментарии