Этот материал находится в платной подписке. Оформи премиум подписку и смотри или слушай Практический курс по Big Data, а также все другие курсы, прямо сейчас!
Премиум
  • Урок 1. 00:01:03
    1.1. Цель модуля “введение в Big Data и HDFS”
  • Урок 2. 00:05:36
    1.2. Big Data с точки зрения маркетинга
  • Урок 3. 00:13:38
    1.3. Классификация многопроцессорных вычислительных систем МВС
  • Урок 4. 00:10:56
    1.4. Распределенные файловые системы на примере GFS и HDFS
  • Урок 5. 00:08:19
    1.5. Чтение и запись данных в HDFS
  • Урок 6. 00:11:39
    1.6. Работа со сбоями в HDFS чанки, блоки и реплики
  • Урок 7. 00:08:32
    1.7. Hadoop Sizing оценка вычислительных мощностей для хранения данных
  • Урок 8. 00:10:30
    1.8. Namenode, Checkpoint Namenode и как теряют данные
  • Урок 9. 00:01:10
    1.9. Резюме
  • Урок 10. 00:01:05
    2.1. Цель модуля “Hadoop экосистема, YARN и MapReduce”
  • Урок 11. 00:10:10
    2.2. MapReduce MR и распределенные консольные утилиты
  • Урок 12. 00:11:53
    2.3. Word Count и формальная модель MapReduce
  • Урок 13. 00:16:19
    2.4. MapReduce и Fault Tolerance
  • Урок 14. 00:12:46
    2.5. MapReduce Streaming, решение задачи Line Count
  • Урок 15. 00:02:44
    2.6. Резюме
  • Урок 16. 00:01:11
    3.1. Цель модуля “Оптимизация MapReduce вычислений”
  • Урок 17. 00:05:57
    3.2. Streaming Word Count
  • Урок 18. 00:06:05
    3.3. Распределенный кеш Distributed Cache
  • Урок 19. 00:06:40
    3.4. Combiner
  • Урок 20. 00:10:32
    3.5.Управляем Shuffle _ Sort с помощью Partitioner и Comparator
  • Урок 21. 00:00:57
    3.6. Резюме
  • Урок 22. 00:08:23
    4.1. Цель модуля “SQL поверх больших данных Hive”
  • Урок 23. 00:04:11
    4.2. Map-Side Join
  • Урок 24. 00:04:35
    4.3. Reduce-Side Join
  • Урок 25. 00:06:46
    4.4. Bucket Map-Side Join оптимизации
  • Урок 26. 00:05:07
    4.5. Немного внутренностей Hive DDL и HiveQL
  • Урок 27. 00:01:16
    4.6. Резюме модуля и мини-курса
  • Урок 28. 00:02:45
    5.1. О курсе “Spark from zero to hero”
  • Урок 29. 00:29:46
    5.2. Архитектура Spark приложения и Spark RDD
  • Урок 30. 00:22:59
    5.3. Spark RDD- преобразования transformations и действия actions
  • Урок 31. 00:20:32
    5.4. Spark PairRDD, Join_ы и Cache
  • Урок 32. 00:00:37
    5.5. Резюме
  • Урок 33. 00:00:43
    6.1. Цель модуля “Spark DataFrames, Spark SQL”
  • Урок 34. 00:04:23
    6.2. Spark DataFrames общие сведения
  • Урок 35. 00:07:42
    6.3. Базовые функции Spark DataFrames
  • Урок 36. 00:11:19
    6.4. Работа с пропущенными значениями NA в Spark DataFrames
  • Урок 37. 00:06:19
    6.5. Группировки в Spark DataFrames
  • Урок 38. 00:11:51
    6.6. Чтение и запись данных в Spark DataFrames
  • Урок 39. 00:10:58
    6.7. Соединения в Spark DataFrames
  • Урок 40. 00:04:19
    6.8. Оконные функции в Spark DataFrames
  • Урок 41. 00:11:26
    6.9. Функции pyspark sql functions
  • Урок 42. 00:02:06
    6.10. Резюме
  • Урок 43. 00:00:35
    7.1. Цель модуля “Оптимизация Spark вычислений”
  • Урок 44. 00:10:07
    7.2. Репартиционирование данных
  • Урок 45. 00:10:48
    7.3. Использование соли для устранения перекосов данных
  • Урок 46. 00:08:11
    7.4. Кеширование
  • Урок 47. 00:10:14
    7.5. План выполнения задач
  • Урок 48. 00:16:13
    7.6. Оптимизация объединений и группировок
  • Урок 49. 00:05:20
    7.7. Снижение количества shuffle
  • Урок 50. 00:06:25
    7.8. Управление схемой данных
  • Урок 51. 00:17:18
    7.9. Оптимизация запросов Catalyst
  • Урок 52. 00:01:54
    7.10. Резюме
  • Урок 53. 00:01:27
    7.11. Резюме курса “Spark from zero to hero”
  • Урок 54. 00:01:49
    8.1. Цель модуля “Потоковая обработка данных (Kafka, Spark Streaming)”
  • Урок 55. 00:03:44
    8.2. Введение в потоковую обработку данных
  • Урок 56. 00:04:47
    8.3. Подходы к потоковой обработке данных
  • Урок 57. 00:04:55
    8.4. Знакомство с Kafka
  • Урок 58. 00:06:11
    8.5. Погружение в Kafka
  • Урок 59. 00:08:57
    8.6. Live Demo_ работа с Kafka CLI
  • Урок 60. 00:04:36
    8.7. Знакомство со Spark Structured Streaming
  • Урок 61. 00:08:06
    8.8. Как выглядит Spark Structured Streaming pipeline
  • Урок 62. 00:04:19
    8.9. Пример Spark Structured Streaming приложения
  • Урок 63. 00:05:34
    8.10. Как правильно использовать Spark Structured Streaming в проде
  • Урок 64. 00:01:27
    8.11. Резюме
  • Урок 65. 00:01:31
    9.1. Цель модуля “NoSQL поверх больших данных Cassandra”
  • Урок 66. 00:07:21
    9.2. Зачем нужен NoSQL
  • Урок 67. 00:03:23
    9.3. CAP теорема Брюера
  • Урок 68. 00:07:19
    9.4. Архитектура Cassandra
  • Урок 69. 00:05:48
    9.5. Подготовка данных
  • Урок 70. 00:09:51
    9.6. Модель данных Cassandra
  • Урок 71. 00:15:46
    9.7. Чтение и фильтрация данных в Cassandra
  • Урок 72. 00:03:03
    9.8. Удаление данных в Cassandra
  • Урок 73. 00:04:43
    9.9. Запись и изменение данных в Cassandra
  • Урок 74. 00:09:26
    9.10. Spark Cassandra Connector
  • Урок 75. 00:02:27
    9.11. Резюме
  • Урок 76. 00:03:01
    10.1. Цель модуля “Data Layout”
  • Урок 77. 00:11:41
    10.2. Как солить косые данные (Data Skew, Salting)
  • Урок 78. 00:10:32
    10.3. Сжатие данных в HDFS и YARN, горячие и холодные данные
  • Урок 79. 00:14:00
    10.4. Hive, разница между File и Row Format, RCFile
  • Урок 80. 00:09:51
    10.5. Формат данных ORC Optimized Row Columnar
  • Урок 81. 00:09:19
    10.6. Формат данных Parquet и сравнение с ORC
  • Урок 82. 00:19:09
    10.7. Обзор HDFS 3.0 и высшей алгебры поля Галуа и коды Рида Соломона, optional
  • Урок 83. 00:02:41
    10.8. Резюме модуля
  • Урок 84. 00:02:49
    10.9. Резюме курса и специализации