Самый быстрый способ прокачать свои навыки для IT-специалистов. Научитесь эффективно обрабатывать большие данные, выполняя практические задания на реальном кластере.
Кому подойдет этот курс
Разработчикам
Вы программируете, но хотите расширить профессиональные возможности и получить практические навыки работы с большими данными? На курсе вы научитесь работать с Hadoop, MapReduce, Hive, Spark, Kafka, Cassandra и будете выполнять задания на реальном кластере.
Data Engineers
Хотите расширить свой арсенал для работы с данными и структурировать свои знания в DE? Вы узнаете о современных технологиях работы с Big Data, научитесь грамотно их использовать и понимать, какую технологию в каких случаях лучше применять.
Аналитикам
Хотите освоить работу с большими данными, чтобы решать более сложные и интересные аналитические задачи? Вы научитесь использовать инструменты работы с большими данными, проводить аналитику с помощью SQL и NoSQL инструментов, готовить данные и отчеты на основе больших массивов информации. Для тех, кто хочет перейти в сферу Data Science и освоить машинное обучение, рекомендуем пройти "Практический курс Machine Learning."
Data Scientists
Ловите себя на мысли, что качество модели во многом зависит от правильного сбора и предобработки данных? Вы получите базу по современным инструментам и подходам, необходимым для сбора, хранения и обработки данных; изучите особенности укладки данных для оптимизации вычислений, подготовки фичей и масштабирования ML-моделей.
Посмотреть больше
Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум
Ограничение времени просмотра
Вы можете просматривать пробный урок только 10 минут. Получите полный доступ, чтобы смотреть без ограничений.
1.3. Классификация многопроцессорных вычислительных систем МВС
Урок 4.
00:10:56
1.4. Распределенные файловые системы на примере GFS и HDFS
Урок 5.
00:08:19
1.5. Чтение и запись данных в HDFS
Урок 6.
00:11:39
1.6. Работа со сбоями в HDFS чанки, блоки и реплики
Урок 7.
00:08:32
1.7. Hadoop Sizing оценка вычислительных мощностей для хранения данных
Урок 8.
00:10:30
1.8. Namenode, Checkpoint Namenode и как теряют данные
Урок 9.
00:01:10
1.9. Резюме
Урок 10.
00:01:05
2.1. Цель модуля “Hadoop экосистема, YARN и MapReduce”
Урок 11.
00:10:10
2.2. MapReduce MR и распределенные консольные утилиты
Урок 12.
00:11:53
2.3. Word Count и формальная модель MapReduce
Урок 13.
00:16:19
2.4. MapReduce и Fault Tolerance
Урок 14.
00:12:46
2.5. MapReduce Streaming, решение задачи Line Count
Урок 15.
00:02:44
2.6. Резюме
Урок 16.
00:01:11
3.1. Цель модуля “Оптимизация MapReduce вычислений”
Урок 17.
00:05:57
3.2. Streaming Word Count
Урок 18.
00:06:05
3.3. Распределенный кеш Distributed Cache
Урок 19.
00:06:40
3.4. Combiner
Урок 20.
00:10:32
3.5.Управляем Shuffle _ Sort с помощью Partitioner и Comparator
Урок 21.
00:00:57
3.6. Резюме
Урок 22.
00:08:23
4.1. Цель модуля “SQL поверх больших данных Hive”
Урок 23.
00:04:11
4.2. Map-Side Join
Урок 24.
00:04:35
4.3. Reduce-Side Join
Урок 25.
00:06:46
4.4. Bucket Map-Side Join оптимизации
Урок 26.
00:05:07
4.5. Немного внутренностей Hive DDL и HiveQL
Урок 27.
00:01:16
4.6. Резюме модуля и мини-курса
Урок 28.
00:02:45
5.1. О курсе “Spark from zero to hero”
Урок 29.
00:29:46
5.2. Архитектура Spark приложения и Spark RDD
Урок 30.
00:22:59
5.3. Spark RDD- преобразования transformations и действия actions
Урок 31.
00:20:32
5.4. Spark PairRDD, Join_ы и Cache
Урок 32.
00:00:37
5.5. Резюме
Урок 33.
00:00:43
6.1. Цель модуля “Spark DataFrames, Spark SQL”
Урок 34.
00:04:23
6.2. Spark DataFrames общие сведения
Урок 35.
00:07:42
6.3. Базовые функции Spark DataFrames
Урок 36.
00:11:19
6.4. Работа с пропущенными значениями NA в Spark DataFrames
Урок 37.
00:06:19
6.5. Группировки в Spark DataFrames
Урок 38.
00:11:51
6.6. Чтение и запись данных в Spark DataFrames
Урок 39.
00:10:58
6.7. Соединения в Spark DataFrames
Урок 40.
00:04:19
6.8. Оконные функции в Spark DataFrames
Урок 41.
00:11:26
6.9. Функции pyspark sql functions
Урок 42.
00:02:06
6.10. Резюме
Урок 43.
00:00:35
7.1. Цель модуля “Оптимизация Spark вычислений”
Урок 44.
00:10:07
7.2. Репартиционирование данных
Урок 45.
00:10:48
7.3. Использование соли для устранения перекосов данных
Урок 46.
00:08:11
7.4. Кеширование
Урок 47.
00:10:14
7.5. План выполнения задач
Урок 48.
00:16:13
7.6. Оптимизация объединений и группировок
Урок 49.
00:05:20
7.7. Снижение количества shuffle
Урок 50.
00:06:25
7.8. Управление схемой данных
Урок 51.
00:17:18
7.9. Оптимизация запросов Catalyst
Урок 52.
00:01:54
7.10. Резюме
Урок 53.
00:01:27
7.11. Резюме курса “Spark from zero to hero”
Урок 54.
00:01:49
8.1. Цель модуля “Потоковая обработка данных (Kafka, Spark Streaming)”
Урок 55.
00:03:44
8.2. Введение в потоковую обработку данных
Урок 56.
00:04:47
8.3. Подходы к потоковой обработке данных
Урок 57.
00:04:55
8.4. Знакомство с Kafka
Урок 58.
00:06:11
8.5. Погружение в Kafka
Урок 59.
00:08:57
8.6. Live Demo_ работа с Kafka CLI
Урок 60.
00:04:36
8.7. Знакомство со Spark Structured Streaming
Урок 61.
00:08:06
8.8. Как выглядит Spark Structured Streaming pipeline
Урок 62.
00:04:19
8.9. Пример Spark Structured Streaming приложения
Урок 63.
00:05:34
8.10. Как правильно использовать Spark Structured Streaming в проде
Урок 64.
00:01:27
8.11. Резюме
Урок 65.
00:01:31
9.1. Цель модуля “NoSQL поверх больших данных Cassandra”
Урок 66.
00:07:21
9.2. Зачем нужен NoSQL
Урок 67.
00:03:23
9.3. CAP теорема Брюера
Урок 68.
00:07:19
9.4. Архитектура Cassandra
Урок 69.
00:05:48
9.5. Подготовка данных
Урок 70.
00:09:51
9.6. Модель данных Cassandra
Урок 71.
00:15:46
9.7. Чтение и фильтрация данных в Cassandra
Урок 72.
00:03:03
9.8. Удаление данных в Cassandra
Урок 73.
00:04:43
9.9. Запись и изменение данных в Cassandra
Урок 74.
00:09:26
9.10. Spark Cassandra Connector
Урок 75.
00:02:27
9.11. Резюме
Урок 76.
00:03:01
10.1. Цель модуля “Data Layout”
Урок 77.
00:11:41
10.2. Как солить косые данные (Data Skew, Salting)
Урок 78.
00:10:32
10.3. Сжатие данных в HDFS и YARN, горячие и холодные данные
Урок 79.
00:14:00
10.4. Hive, разница между File и Row Format, RCFile
Урок 80.
00:09:51
10.5. Формат данных ORC Optimized Row Columnar
Урок 81.
00:09:19
10.6. Формат данных Parquet и сравнение с ORC
Урок 82.
00:19:09
10.7. Обзор HDFS 3.0 и высшей алгебры поля Галуа и коды Рида Соломона, optional
Урок 83.
00:02:41
10.8. Резюме модуля
Урок 84.
00:02:49
10.9. Резюме курса и специализации
Автор - BigData Team
BigData Team
BigData Team основал выпускник мехмата МГУ Алексей Драль. В перерывах между работой в IT - Amazon AWS, Яндексе, Rambler - Алексей развивал образование в области машинного обучения и Big Data в России. Сначала как приглашенный лектор, потом как зам. директора по инновационной работе в МФТИ. После этого Алексей возглавлял обучение Data-профессиям в Корпоративном Университете Сбербанка. Как компания мы появились в 2017 году. Первым проектом нашей ко
Команда внимательно читает ваши комментарии и оперативно на них реагирует. Вы можете спокойно оставлять запросы на обновления или задавать любые вопросы о курсе здесь.
Big data - инструменты, подходы и методы обработки огромных объёмов данных. По сути это альтернатива традиционным системам обработки данных. Если вам требуется общее расширение кругозора в теме технологий работы с данными и необходимость апгрейда на текущем месте работы, курс даст возможность расширить профессиональные навыки, работать с новыми задачами и быстро приносить результаты в проектах.