Научитесь строить пайплайны данных в реальном времени.
В современных компаниях накапливается большой объем данных, из которых можно извлекать важную аналитику, строить гипотезы или модели прогнозирования. Data Engineer - это специалист, который собирает данные из разных источников, очищает их и передает в удобном виде аналитикам для принятия бизнес-решений.
Аналитикам данных нужно знать, как работает хранилище данных, в каком виде там хранятся данные, как они обрабатываются и как их можно получить для анализа.
Курс ориентирован на практику и основные инструменты, подходит для тех, кто имеет базовые знания языка Python. За два месяца вы освоите все важные этапы Data Engineering.
Программа курса
1 Введение, практический linux
Кто такой Data Engineer и зачем ему Linux?
2 Современные хранилища данных
Разнообразие баз данных и их особенности
3 Экосистема Hadoop
Что такое Hadoop, что он умеет и как им пользоваться
4 Источники данных и работа с ними
Файлы как источники данных, JDBC - структурированные данные, SQL для выгрузки данных
5 Apache Spark и обработка данных
Зачем нужен Apache Spark и как с ним работать
6 Hadoop как хранилище данных
Особенности и нюансы hdfs
7 Apache Airflow для оркестрации конвейеров
Настройка data pipelines
8 Обзор облачных хранилищ
Особенности и нюансы работы с облачными хранилищами: Google, Amazon, Azure
Посмотреть больше
Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум
Ограничение времени просмотра
Вы можете просматривать пробный урок только 10 минут. Получите полный доступ, чтобы смотреть без ограничений.
Онлайн-школа Skillfactory предоставляет своим студентам практические знания и опыт, который может быть применен на практике. Это делает выпускников школы привлекательными кандидатами для найма.