Apache Spark является ключевым навыком в области данных - вот как вы можете доказать, что владеете им!
Изучите Apache Spark с нуля и продемонстрируйте свои знания с помощью сертификации Databricks Associate Developer для Apache Spark. Этот курс превратит вас в профессионала PySpark и подготовит к успешной сдаче популярной сертификации Databricks Spark.
Присоединяйтесь ко мне для понятного и увлекательного изучения Spark и поднимите свою карьеру в области больших данных на новый уровень!
Чему вы научитесь?
Цель этого курса - научить вас основным навыкам PySpark и подготовить к получению сертификации Databricks Certified Associate Developer для Apache Spark.
Курс включает 18 модулей, которые помогут вам понять, как работает Apache Spark изнутри и как использовать его на практике. Ниже вы найдете все рассматриваемые темы, но вот краткий обзор:
- Станьте опытным экспертом в программировании с Spark DataFrames.
- Наберитесь уверенности в содержании экзамена по сертификации Databricks.
- Откройте для себя распределенную, устойчивую к сбоям обработку данных Spark.
- Освойте работу со Spark в Databricks.
- Поймите архитектуру кластера Spark.
- Узнайте, когда и как Spark оценивает код.
- Освойте механизмы эффективного управления памятью Spark.
- Проанализируйте типичные проблемы Spark, такие как ошибки из-за нехватки памяти.
- Посмотрите, как Spark выполняет сложные операции, такие как соединения.
- Научитесь легко ориентироваться в пользовательском интерфейсе Spark.
...и многие другие темы – ознакомьтесь с полным списком ниже!
Для кого этот курс?
Для всех, у кого есть базовые навыки Python и кто хочет развивать свои навыки обработки больших данных! А также для тех, кто хочет сдать популярную сертификацию Databricks Certified Associate Developer для Apache Spark, используя PySpark.
Если вы хотите научиться использовать Apache Spark с языком программирования Scala, этот курс вам не подойдет. Мы сосредотачиваемся исключительно на Python и PySpark, но основные концепции Spark, которые преподаются, применимы к обоим языкам.
- Аналитики данных и разработчики, желающие добавить в свое портфолио подтвержденные навыки работы с большими данными и опыт работы с Databricks.
- Инженеры данных, которым необходимо подтвердить свои навыки работы с Apache Spark через сертификацию для продвижения по карьере.
- Научные сотрудники в области данных, желающие эффективно и без лишних хлопот работать с большими объемами данных в Apache Spark.
- Компании, которые хотят, чтобы их персонал, работающий с данными, мог использовать Apache Spark профессионально, экономя время и деньги.
- Любой, кто хочет освежить свои навыки работы с Apache Spark, получив твердое понимание того, как это работает изнутри.
Посмотреть больше
Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум
Ограничение времени просмотра
Вы можете просматривать пробный урок только 10 минут. Получите полный доступ, чтобы смотреть без ограничений.
05. Overview of the Spark Cluster Architecture and its Components
Урок 6.
00:11:55
06. Getting to Know the Spark Driver
Урок 7.
00:07:37
07. Getting to Know Executors
Урок 8.
00:17:33
08. Discovering Execution Modes
Урок 9.
00:05:38
09. Overview
Урок 10.
00:19:10
10. Internal Types, DataFrames, Datasets, RDDs, and the Spark SQL API
Урок 11.
00:08:26
11. Hands-on Session_ Exploring Data APIs on Databricks Community Edition
Урок 12.
00:01:12
12. Intro to Labs
Урок 13.
00:06:58
13. Intro & Creating DataFrames
Урок 14.
00:01:07
14. Exercise_ Creating a DataFrame
Урок 15.
00:01:59
15. Exercise_ Creating a DataFrame - Solution
Урок 16.
00:26:10
16. Working with Schemas
Урок 17.
00:01:46
17. Exercise_ Building a Simple Schema
Урок 18.
00:05:13
18. Exercise_ Building a Simple Schema - Solution
Урок 19.
00:02:28
19. Exercise_ Building a Complex Schema
Урок 20.
00:05:53
20. Exercise_ Building a Complex Schema - Solution
Урок 21.
00:07:20
21. Type Conversion of DataFrame Columns
Урок 22.
00:01:50
22. Exercise_ Changing the Type of a Column
Урок 23.
00:04:20
23. Exercise_ Changing the Type of a Column - Solution
Урок 24.
00:09:18
24. Overview
Урок 25.
00:07:52
25. Shuffles
Урок 26.
00:13:15
26. Data Skew
Урок 27.
00:03:47
27. Spark Configurations for Partitions
Урок 28.
00:30:18
28. Hands-on Session_ The Power of Partitions
Урок 29.
00:17:39
29. Storage Layout
Урок 30.
00:10:29
30. Caching and Storage Levels
Урок 31.
00:30:59
31. Memory in Action
Урок 32.
00:10:27
32. Hands-on Session_ Executor Memory Management - Part 1
Урок 33.
00:13:08
33. Hands-on Session_ Executor Memory Management - Part 2
Урок 34.
00:04:01
34. Intro & How to Get Help in PySpark
Урок 35.
00:09:45
35. Partitioning Recap
Урок 36.
00:01:31
36. Exercise_ Repartitioning
Урок 37.
00:06:08
37. Exercise_ Repartitioning - Solution
Урок 38.
00:03:27
38. Caching Recap
Урок 39.
00:01:13
39. Exercise_ Caching
Урок 40.
00:03:20
40. Exercise_ Caching - Solution
Урок 41.
00:07:40
41. Overview
Урок 42.
00:06:47
42. Hands-On Session_ Actions vs. Transformations
Урок 43.
00:18:36
43. Intro & Reading Data
Урок 44.
00:02:20
44. Exercise_ Reading Parquet Files
Урок 45.
00:03:44
45. Exercise_ Reading Parquet Files - Solution
Урок 46.
00:17:18
46. Reading from CSV Files
Урок 47.
00:02:29
47. Exercise_ Reading CSV Files
Урок 48.
00:03:55
48. Exercise_ Reading CSV Files - Solution
Урок 49.
00:05:16
49. Reading from JSON Files
Урок 50.
00:10:57
50. Writing Data
Урок 51.
00:02:08
51. Exercise_ Writing to Parquet Files
Урок 52.
00:04:27
52. Exercise_ Writing to Parquet Files - Solution
Урок 53.
00:02:53
53. Writing to CSV Files
Урок 54.
00:02:16
54. Exercise_ Writing to CSV Files
Урок 55.
00:03:12
55. Exercise_ Writing to CSV Files - Solution
Урок 56.
00:01:58
56. Writing to JSON Files
Урок 57.
00:05:01
57. Using PySpark with SQL
Урок 58.
00:00:46
58. Exercise_ SQL in PySpark
Урок 59.
00:02:16
59. Exercise_ SQL in PySpark - Solution
Урок 60.
00:16:33
60. Overview
Урок 61.
00:12:27
61. Hands-on Session_ Discovering the Spark UI
Урок 62.
00:16:58
62. Intro & Removing Data
Урок 63.
00:00:59
63. Exercise_ Removing Data
Урок 64.
00:03:16
64. Exercise_ Removing Data - Solution
Урок 65.
00:30:49
65. Modifying Data
Урок 66.
00:02:08
66. Exercise_ Modifying Data
Урок 67.
00:07:22
67. Exercise_ Modifying Data - Solution
Урок 68.
00:18:14
68. Analyzing Data
Урок 69.
00:01:39
69. Exercise_ Analyzing Data
Урок 70.
00:06:30
70. Exercise_ Analyzing Data - Solution
Урок 71.
00:18:32
71. The Catalyst Optimizer
Урок 72.
00:15:32
72. Adaptive Query Execution
Урок 73.
00:10:08
73. Dynamic Partition Pruning
Урок 74.
00:12:25
74. The DAG_ Achieving Fault Tolerance
Урок 75.
00:33:30
75. Intro & Working With Dates and Times
Урок 76.
00:02:10
76. Exercise_ Working With Dates and Times
Урок 77.
00:08:00
77. Exercise_ Working With Dates and Times - Solution
Урок 78.
00:15:30
78. Working With Strings
Урок 79.
00:03:20
79. Exercise_ Working With Strings
Урок 80.
00:07:47
80. Exercise_ Working With Strings - Solution
Урок 81.
00:14:38
81. Working with Arrays
Урок 82.
00:05:17
82. Exercise_ Working With Arrays
Урок 83.
00:13:19
83. Exercise_ Working With Arrays - Solution
Урок 84.
00:11:14
84. Accumulator and Broadcast Variables
Урок 85.
00:34:02
85. Joins
Урок 86.
00:42:39
86. Hands-on Session_ Cross-Cluster Communication
Урок 87.
00:19:16
87. Intro & Grouping and Aggregating
Урок 88.
00:01:43
88. Exercise_ Grouping and Aggregating
Урок 89.
00:07:19
89. Exercise_ Grouping and Aggregating - Solution
Урок 90.
00:15:06
90. Joining
Урок 91.
00:03:58
91. Exercise_ Joining
Урок 92.
00:03:58
92. Exercise_ Joining - Solution
Урок 93.
00:20:29
93. User-Defined Functions (UDFs)
Урок 94.
00:04:06
94. Exercise_ UDFs
Урок 95.
00:17:51
95. Exercise_ UDFs - Solution
Урок 96.
00:02:24
96. Signing up for the Exam
Урок 97.
00:01:34
97. Last Minute Preparations
Урок 98.
00:04:36
98. Introduction
Урок 99.
00:00:50
99. Congratulations!
Автор - Florian Roscheck
Florian Roscheck
"Я не могу поверить, что ничего не знаю о обработке больших данных!" – именно это стало началом моего увлекательного пути к изучению Apache Spark. Сегодня я научил более 5,000 студентов, как сдать сертификацию Databricks Spark, благодаря моим популярным практическим экзаменам.
Как старший научный сотрудник по данным в крупной компании потребительских товаров в Германии, я в настоящее время применяю модели больших данных со своей командой данных в
It would be awesome to see this Apache Spark courses:
https://advancinganalytics.teachable.com/courses/
Sergio Leone
Thank you! You are the best
Alphonse
Thank you @Andrew.
rawstyle
Oh wow! Thanks a lot for this course, it looks super useful!
Команда внимательно читает ваши комментарии и оперативно на них реагирует. Вы можете спокойно оставлять запросы на обновления или задавать любые вопросы о курсе здесь.
Курс по внедрению Big Data Apache Spark на Databricks с использованием облачной службы Microsoft - Azure. В этом курсе вы изучите основы создания заданий Spark, загрузки данных и работы с данными. Вы также узнаете, как запускать алгоритмы машинного обучения и работать с потоковыми данными.
После построения пайплайнов данных, обработка данных - одна из важнейших задач в Data Engineering. Как инженер по данным, вы постоянно сталкиваетесь с необходимостью обработки, и критично уметь настраивать мощную и распределённую систему обработки. Один из самых полезных и широко используемых инструментов для этого - Apache Spark.
Современным дата-платформам нужна гибкость озёр данных и надёжность хранилищ. Apache Iceberg сочетает оба подхода. В этом курсе вы разберётесь, как работает этот мощный формат открытых таблиц, изучите его архитектуру и научитесь использовать ключевые возможности: эволюцию схем, «путешествия во времени» и высокопроизводительную аналитику в Lakehouse-системах.Курс построен на практических примерах из реальной инженерии данных. Вы развернёте локальн
https://advancinganalytics.teachable.com/courses/