Продолжительность
7 ч 52 мин 34 сек
Количество уроков
24 Видео
Дата добавления
11.09.2020
Говорят, Spark шустрый. Как мне извлечь из этого максимальную пользу? Освойте внутреннее устройство Spark, чтобы ваша работа превращалась в луч лазера, а кластер выдерживал максимальный вес.
Скажите, похоже ли это на вас:
- вы запускаете 3 больших задания с одним и тем же DataFrame, поэтому вы пытаетесь его кэшировать, но затем вы смотрите в пользовательский интерфейс, и его нигде не найти
- наконец-то вы получили кластер, о котором просили ... а потом спрашиваете: «Сколько исполнителей мне выбрать?»
- у вас есть простая работа с 1 ГБ данных, которая занимает 5 минут для 1149 задач ... и 3 часа для последней задачи
- у вас большой набор данных, и вы знаете, что должны правильно его разбить, но вы не можете выбрать число от 2 до 50000, потому что вы можете найти веские причины для обоих
- вы ищете "кеширование", "сериализацию", "разбиение", "настройку" и находите только непонятные сообщения в блогах и узкие вопросы StackOverflow.
Я буду откровенен: если у вас нет большого опыта или вы не являетесь коммиттером Spark, вы, вероятно, используете 10% возможностей Spark.
В Spark Optimization 1 вы научились писать производительный код. Пришло время заняться спортом и настроить Spark как можно лучше. Вы просматриваете единственный курс в Интернете, который максимально использует функции и возможности Spark. С помощью техник, которые вы здесь изучаете, вы сэкономите время, деньги, энергию и избавитесь от головной боли.
Этим курсом мы подрезаем сорняки под корень. Мы углубляемся в Spark и понимаем, какие инструменты есть в вашем распоряжении, и вы можете быть удивлены тем, насколько у вас большие рычаги влияния. Вы изучите 20+ техник и стратегий оптимизации. Каждый из них по отдельности может дать как минимум двукратное повышение производительности вашей работы (некоторые из них даже в 10 раз), и я показываю это на камеру.
Что вас ждет:
- Вы поймете внутреннее устройство Spark, чтобы объяснить, как Spark уже чертовски быстр.
- Вы сможете заранее предсказать, займет ли работа много времени
- Вы диагностируете зависания, этапы и задачи
- Вы обнаружите и исправите перекосы данных
- Вы сделаете правильный выбор между скоростью, использованием памяти и отказоустойчивостью.
- Вы сможете настроить свой кластер с оптимальными ресурсами
- Вы сэкономите часы вычислительного времени только в этом курсе (не говоря уже о продукте!)
- Вы будете контролировать параллелизм ваших заданий с помощью правильного разбиения