Главная страницаКатегория обработка и анализ данныхИнженерия данных с Hadoop

Инженерия данных с Hadoop

Name: Инженерия данных с Hadoop
Price: 13 USD

Data Engineering with Hadoop

Suyog Nagaokar

Продолжительность

7 ч 3 мин

Категория

Обработка и анализ данных

Количество уроков

45 Видео

Дата добавления

29 мая 2025 г., 23:06

Язык

Английский

Дата обновления

29 апр. 2026 г., 23:22

Инженерия данных с Hadoop — это ключевой навык для специалистов, которые хотят уверенно работать с большими данными и современными распределёнными системами. В этом курсе вы погрузитесь в экосистему Hadoop и научитесь эффективно обрабатывать, хранить и анализировать данные любого масштаба.

Что такое Big Data и почему Hadoop так важен

Big Data — это массивы данных, которые невозможно обработать традиционными способами. Компании ежедневно сталкиваются с необходимостью анализировать потоки структурированной и неструктурированной информации. Именно здесь на сцену выходит Apache Hadoop — мощный и гибкий фреймворк, позволяющий распределять вычисления и хранение данных по кластерам.

Ключевые преимущества Hadoop

Масштабируемость и возможность работы с петабайтами данных
Обработка данных параллельно на множестве узлов
Высокая отказоустойчивость и автоматическая репликация
Открытый исходный код и широкая поддержка индустрии

Что вы изучите в ходе обучения

Под руководством опытного преподавателя Суйога Нагаокара вы получите детальное понимание архитектуры Hadoop и освоите его ключевые компоненты:

Базовые технологии Hadoop

HDFS — распределённое хранилище данных
YARN — система управления ресурсами
MapReduce — модель распределённой обработки данных
Hive — SQL-движок поверх Hadoop
Sqoop — инструмент обмена данными между Hadoop и реляционными СУБД

Практические навыки

Вы пройдёте комбинацию теории и практики, научитесь:

Разбираться в экосистеме Hadoop и её интеграции с другими технологиями
Работать с основными командами и утилитами Hadoop
Строить реальные решения на базе Hadoop-компонентов

Установка и работа с Cloudera Quickstart VM

В практической части вы создадите локальную среду Hadoop при помощи Cloudera Quickstart VM и освоите:

Импорт и экспорт данных с помощью Sqoop, Hive и MySQL
Написание SQL-подобных запросов в Hive для анализа данных
Взаимодействие с кластерами через HDFS, MapReduce и YARN
Управление кластерами через удобный интерфейс Hue

Требования к участникам

ПК с 64-битной Windows или Linux и стабильным интернетом
Минимум 8 ГБ свободной оперативной памяти (для практики)
Базовые знания программирования, предпочтительно на Python
Навыки работы в Linux приветствуются

Кому подойдёт этот курс

Курс подойдёт новичкам и специалистам, которые хотят прокачать навыки работы с большими данными и изучить один из наиболее востребованных фреймворков в сфере Big Data. Он идеально подходит для будущих инженеров данных, аналитиков, разработчиков и всех, кто строит карьеру в направлении Data Engineering.

Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум

Урок 1. 00:02:10
What can you expect from this course?
Урок 2. 00:14:50
Introduction to Big Data
Урок 3. 00:05:38
What is Hadoop? Why Hadoop?
Урок 4. 00:02:39
Hadoop Architecture вЂ“ Overview
Урок 5. 00:07:13
Hadoop Architecture вЂ“ Key services
Урок 6. 00:07:51
Storage/Processing characteristics
Урок 7. 00:03:56
Store and process data in HDFS
Урок 8. 00:05:10
Handling failures - Part 1
Урок 9. 00:07:33
Handling failures - Part 2
Урок 10. 00:05:59
Rack Awareness
Урок 11. 00:12:51
Hadoop 1 v/s Hadoop 2
Урок 12. 00:03:36
Hadoop Ecosystem
Урок 13. 00:10:12
Vanilla/HDP/CDH/Cloud distributions
Урок 14. 00:07:19
Install Cloudera Quickstart Docker
Урок 15. 00:05:49
Hands-on with Linux and Hadoop commands
Урок 16. 00:04:54
Hive Overview
Урок 17. 00:05:57
How Hive works
Урок 18. 00:04:59
Hive query execution flow
Урок 19. 00:05:10
Creating a Data Warehouse & Loading data
Урок 20. 00:21:19
Creating a Hive Table
Урок 21. 00:17:19
Load data from local & HDFS
Урок 22. 00:17:20
Internal tables vs External tables
Урок 23. 00:16:24
Partitioning & Bucketing. (Cardinality concept)
Урок 24. 00:14:58
Static Partitioning - Lab
Урок 25. 00:13:55
Dynamic Partitioning - Lab
Урок 26. 00:22:32
Bucketting - Lab
Урок 27. 00:11:34
Storing Hive query output
Урок 28. 00:14:26
Hive SerDe
Урок 29. 00:14:10
ORC File Format
Урок 30. 00:03:52
Sqoop overview
Урок 31. 00:06:31
Sqoop list-databases and list-tables
Урок 32. 00:03:59
Scoop Eval?
Урок 33. 00:11:40
Import RDBMS table with Sqoop
Урок 34. 00:09:02
Handling parallelism in Sqoop
Урок 35. 00:11:01
Import table without primary key
Урок 36. 00:08:48
Custom Query for Sqoop Import
Урок 37. 00:09:52
Incremental Sqoop Import - Append
Урок 38. 00:13:55
Incremental Sqoop Import - Last Modified
Урок 39. 00:08:01
Scoop Job
Урок 40. 00:10:59
Sqoop Import to a Hive table
Урок 41. 00:06:20
Sqoop Import all tables - Part 1
Урок 42. 00:14:03
Sqoop Import all tables - Part 2
Урок 43. 00:06:14
Sqoop Export
Урок 44. 00:04:36
Export Hive table
Урок 45. 00:06:24
Export with Staging table

https://github.com/team-data-science/Hadoop-Suyog-Nagaokar

Автор - Suyog Nagaokar

Suyog Nagaokar

Суйог - инженер данных с более чем 8-летним опытом работы в сфере Data Engineering. Он разрабатывает автоматизированные и оптимизированные решения для бизнеса на базе Hadoop, Spark и стриминговых фреймворков, помогая компаниям получать ценность из данных.Его опыт охватывает телеком и банковскую отрасли, включая проекты по Customer Genomics, аналитику мошенничества, цифровой банкинг и машинное обучение в телекоммуникациях.Суйог также имеет опыт на

Комментарии