Этот материал находится в платной подписке. Оформи премиум подписку и смотри или слушай Практический курс по Big Data, а также все другие курсы, прямо сейчас!
Премиум
  1. Урок 1. 00:01:03
    1.1. Цель модуля “введение в Big Data и HDFS”
  2. Урок 2. 00:05:36
    1.2. Big Data с точки зрения маркетинга
  3. Урок 3. 00:13:38
    1.3. Классификация многопроцессорных вычислительных систем МВС
  4. Урок 4. 00:10:56
    1.4. Распределенные файловые системы на примере GFS и HDFS
  5. Урок 5. 00:08:19
    1.5. Чтение и запись данных в HDFS
  6. Урок 6. 00:11:39
    1.6. Работа со сбоями в HDFS чанки, блоки и реплики
  7. Урок 7. 00:08:32
    1.7. Hadoop Sizing оценка вычислительных мощностей для хранения данных
  8. Урок 8. 00:10:30
    1.8. Namenode, Checkpoint Namenode и как теряют данные
  9. Урок 9. 00:01:10
    1.9. Резюме
  10. Урок 10. 00:01:05
    2.1. Цель модуля “Hadoop экосистема, YARN и MapReduce”
  11. Урок 11. 00:10:10
    2.2. MapReduce MR и распределенные консольные утилиты
  12. Урок 12. 00:11:53
    2.3. Word Count и формальная модель MapReduce
  13. Урок 13. 00:16:19
    2.4. MapReduce и Fault Tolerance
  14. Урок 14. 00:12:46
    2.5. MapReduce Streaming, решение задачи Line Count
  15. Урок 15. 00:02:44
    2.6. Резюме
  16. Урок 16. 00:01:11
    3.1. Цель модуля “Оптимизация MapReduce вычислений”
  17. Урок 17. 00:05:57
    3.2. Streaming Word Count
  18. Урок 18. 00:06:05
    3.3. Распределенный кеш Distributed Cache
  19. Урок 19. 00:06:40
    3.4. Combiner
  20. Урок 20. 00:10:32
    3.5.Управляем Shuffle _ Sort с помощью Partitioner и Comparator
  21. Урок 21. 00:00:57
    3.6. Резюме
  22. Урок 22. 00:08:23
    4.1. Цель модуля “SQL поверх больших данных Hive”
  23. Урок 23. 00:04:11
    4.2. Map-Side Join
  24. Урок 24. 00:04:35
    4.3. Reduce-Side Join
  25. Урок 25. 00:06:46
    4.4. Bucket Map-Side Join оптимизации
  26. Урок 26. 00:05:07
    4.5. Немного внутренностей Hive DDL и HiveQL
  27. Урок 27. 00:01:16
    4.6. Резюме модуля и мини-курса
  28. Урок 28. 00:02:45
    5.1. О курсе “Spark from zero to hero”
  29. Урок 29. 00:29:46
    5.2. Архитектура Spark приложения и Spark RDD
  30. Урок 30. 00:22:59
    5.3. Spark RDD- преобразования transformations и действия actions
  31. Урок 31. 00:20:32
    5.4. Spark PairRDD, Join_ы и Cache
  32. Урок 32. 00:00:37
    5.5. Резюме
  33. Урок 33. 00:00:43
    6.1. Цель модуля “Spark DataFrames, Spark SQL”
  34. Урок 34. 00:04:23
    6.2. Spark DataFrames общие сведения
  35. Урок 35. 00:07:42
    6.3. Базовые функции Spark DataFrames
  36. Урок 36. 00:11:19
    6.4. Работа с пропущенными значениями NA в Spark DataFrames
  37. Урок 37. 00:06:19
    6.5. Группировки в Spark DataFrames
  38. Урок 38. 00:11:51
    6.6. Чтение и запись данных в Spark DataFrames
  39. Урок 39. 00:10:58
    6.7. Соединения в Spark DataFrames
  40. Урок 40. 00:04:19
    6.8. Оконные функции в Spark DataFrames
  41. Урок 41. 00:11:26
    6.9. Функции pyspark sql functions
  42. Урок 42. 00:02:06
    6.10. Резюме
  43. Урок 43. 00:00:35
    7.1. Цель модуля “Оптимизация Spark вычислений”
  44. Урок 44. 00:10:07
    7.2. Репартиционирование данных
  45. Урок 45. 00:10:48
    7.3. Использование соли для устранения перекосов данных
  46. Урок 46. 00:08:11
    7.4. Кеширование
  47. Урок 47. 00:10:14
    7.5. План выполнения задач
  48. Урок 48. 00:16:13
    7.6. Оптимизация объединений и группировок
  49. Урок 49. 00:05:20
    7.7. Снижение количества shuffle
  50. Урок 50. 00:06:25
    7.8. Управление схемой данных
  51. Урок 51. 00:17:18
    7.9. Оптимизация запросов Catalyst
  52. Урок 52. 00:01:54
    7.10. Резюме
  53. Урок 53. 00:01:27
    7.11. Резюме курса “Spark from zero to hero”
  54. Урок 54. 00:01:49
    8.1. Цель модуля “Потоковая обработка данных (Kafka, Spark Streaming)”
  55. Урок 55. 00:03:44
    8.2. Введение в потоковую обработку данных
  56. Урок 56. 00:04:47
    8.3. Подходы к потоковой обработке данных
  57. Урок 57. 00:04:55
    8.4. Знакомство с Kafka
  58. Урок 58. 00:06:11
    8.5. Погружение в Kafka
  59. Урок 59. 00:08:57
    8.6. Live Demo_ работа с Kafka CLI
  60. Урок 60. 00:04:36
    8.7. Знакомство со Spark Structured Streaming
  61. Урок 61. 00:08:06
    8.8. Как выглядит Spark Structured Streaming pipeline
  62. Урок 62. 00:04:19
    8.9. Пример Spark Structured Streaming приложения
  63. Урок 63. 00:05:34
    8.10. Как правильно использовать Spark Structured Streaming в проде
  64. Урок 64. 00:01:27
    8.11. Резюме
  65. Урок 65. 00:01:31
    9.1. Цель модуля “NoSQL поверх больших данных Cassandra”
  66. Урок 66. 00:07:21
    9.2. Зачем нужен NoSQL
  67. Урок 67. 00:03:23
    9.3. CAP теорема Брюера
  68. Урок 68. 00:07:19
    9.4. Архитектура Cassandra
  69. Урок 69. 00:05:48
    9.5. Подготовка данных
  70. Урок 70. 00:09:51
    9.6. Модель данных Cassandra
  71. Урок 71. 00:15:46
    9.7. Чтение и фильтрация данных в Cassandra
  72. Урок 72. 00:03:03
    9.8. Удаление данных в Cassandra
  73. Урок 73. 00:04:43
    9.9. Запись и изменение данных в Cassandra
  74. Урок 74. 00:09:26
    9.10. Spark Cassandra Connector
  75. Урок 75. 00:02:27
    9.11. Резюме
  76. Урок 76. 00:03:01
    10.1. Цель модуля “Data Layout”
  77. Урок 77. 00:11:41
    10.2. Как солить косые данные (Data Skew, Salting)
  78. Урок 78. 00:10:32
    10.3. Сжатие данных в HDFS и YARN, горячие и холодные данные
  79. Урок 79. 00:14:00
    10.4. Hive, разница между File и Row Format, RCFile
  80. Урок 80. 00:09:51
    10.5. Формат данных ORC Optimized Row Columnar
  81. Урок 81. 00:09:19
    10.6. Формат данных Parquet и сравнение с ORC
  82. Урок 82. 00:19:09
    10.7. Обзор HDFS 3.0 и высшей алгебры поля Галуа и коды Рида Соломона, optional
  83. Урок 83. 00:02:41
    10.8. Резюме модуля
  84. Урок 84. 00:02:49
    10.9. Резюме курса и специализации