В роли инженера данных вы будете регулярно работать с аналитическими платформами, где компании хранят данные в Data Lakes и Data Warehouses для построения визуализаций и создания моделей машинного обучения.
Современные хранилища данных, такие как AWS Redshift, Google BigQuery и Snowflake, позволяют загружать данные напрямую из файлов в Data Lake. Эта интеграция делает работу с хранилищами гибкой и удобной для аналитических задач.
В этом курсе вы научитесь:
Как использовать Data Lakes, Data Warehouses и BI-инструменты в единой системе
Как загружать данные в Data Lakes и визуализировать их в отчётах
Как строить интеграции в Google Cloud Platform и AWS
Как работает архитектура ETL/ELT и как её применять в современных хранилищах данных
Основы Data Warehouses и Data Lakes
Роль хранилищ данных в аналитических платформах
Как данные загружаются в Data Warehouse через ETL/ELT
Что такое Data Lakes и как их использовать
Как работать с файлами напрямую в озере данных
Практика на GCP: Cloud Storage, BigQuery и Data Studio
Настройка Cloud Storage, создание таблицы в BigQuery
Визуализация данных в Data Studio
Понимание общих принципов работы облачных платформ
Практика на AWS: S3, Athena, Glue и Quicksight
Создание интеграции данных через S3, Athena и Quicksight
Настройка Glue Data Catalog для управления данными
Подробная настройка и интеграция Glue
Резюме и бонус-урок: AWS Redshift Spectrum
Подведение итогов курса
Дополнительный модуль по работе с Redshift Spectrum, используя подготовленный Data Catalog из AWS-проекта
Необходимые знания
Основы работы с Data Warehouses (рекомендуется пройти курс «Хранилища данных» в академии)
Базовые знания AWS Athena и Redshift (для блока с Redshift Spectrum используется подготовленный Data Catalog из проекта AWS)
Этот курс поможет вам освоить современные подходы к построению систем хранения и обработки данных и научиться эффективно использовать возможности Data Lakes и Data Warehouses для аналитики.
Посмотреть больше
Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум
Ограничение времени просмотра
Вы можете просматривать пробный урок только 10 минут. Получите полный доступ, чтобы смотреть без ограничений.
Я - старший инженер по данным и тренер, техноэнтузиаст и отец. Уже более десяти лет я увлечён Data Engineering. Сначала я стал инженером по данным самоучкой, а затем возглавил команду инженеров по данным в крупной компании. Когда я понял, насколько велика потребность в обучении в этой сфере, я последовал за своей страстью и основал собственную Академию Data Engineering. С тех пор я помог более чем 2 000 студентам достичь своих целей.