В роли инженера данных вы будете регулярно работать с аналитическими платформами, где компании хранят данные в Data Lakes и Data Warehouses для построения визуализаций и создания моделей машинного обучения.
Современные хранилища данных, такие как AWS Redshift, Google BigQuery и Snowflake, позволяют загружать данные напрямую из файлов в Data Lake. Эта интеграция делает работу с хранилищами гибкой и удобной для аналитических задач.
В этом курсе вы научитесь:
Как использовать Data Lakes, Data Warehouses и BI-инструменты в единой системе
Как загружать данные в Data Lakes и визуализировать их в отчётах
Как строить интеграции в Google Cloud Platform и AWS
Как работает архитектура ETL/ELT и как её применять в современных хранилищах данных
Основы Data Warehouses и Data Lakes
Роль хранилищ данных в аналитических платформах
Как данные загружаются в Data Warehouse через ETL/ELT
Что такое Data Lakes и как их использовать
Как работать с файлами напрямую в озере данных
Практика на GCP: Cloud Storage, BigQuery и Data Studio
Настройка Cloud Storage, создание таблицы в BigQuery
Визуализация данных в Data Studio
Понимание общих принципов работы облачных платформ
Практика на AWS: S3, Athena, Glue и Quicksight
Создание интеграции данных через S3, Athena и Quicksight
Настройка Glue Data Catalog для управления данными
Подробная настройка и интеграция Glue
Резюме и бонус-урок: AWS Redshift Spectrum
Подведение итогов курса
Дополнительный модуль по работе с Redshift Spectrum, используя подготовленный Data Catalog из AWS-проекта
Необходимые знания
Основы работы с Data Warehouses (рекомендуется пройти курс «Хранилища данных» в академии)
Базовые знания AWS Athena и Redshift (для блока с Redshift Spectrum используется подготовленный Data Catalog из проекта AWS)
Этот курс поможет вам освоить современные подходы к построению систем хранения и обработки данных и научиться эффективно использовать возможности Data Lakes и Data Warehouses для аналитики.
Посмотреть больше
Этот материал находится в платной подписке. Оформи премиум подписку и смотри или слушай
Modern Data Warehouses & Data Lakes,
а также все другие курсы, прямо сейчас!
Я - старший инженер по данным и тренер, техноэнтузиаст и отец. Уже более десяти лет я увлечён Data Engineering. Сначала я стал инженером по данным самоучкой, а затем возглавил команду инженеров по данным в крупной компании. Когда я понял, насколько велика потребность в обучении в этой сфере, я последовал за своей страстью и основал собственную Академию Data Engineering. С тех пор я помог более чем 2 000 студентам достичь своих целей.
Команда внимательно читает ваши комментарии и оперативно на них реагирует. Вы можете спокойно оставлять запросы на обновления или задавать любые вопросы о курсе здесь.
Во время моих коучинг-сессий снова и снова всплывает одна важная тема - проектирование схем. Поэтому я решил создать отдельный курс в академии, чтобы подробнее объяснить, как разрабатывать схемы данных для различных хранилищ.В качестве учебного примера мы будем использовать e-commerce-датасет, знакомый вам из других курсов. Я также включил реальные схемы из коучинга, чтобы показать, как проектирование может выглядеть в разных сценариях.
Одна из ключевых задач при создании платформы данных и пайплайнов - это выбор подходящих хранилищ данных. Именно этой теме и посвящён данный курс.Мы рассмотрим реляционные и NoSQL базы данных, а также хранилища данных (data warehouses) и озёра данных (data lakes). Вы узнаете, когда стоит использовать тот или иной тип хранилища и как правильно интегрировать его в свою архитектуру.После прохождения курса вы будете понимать, как хранить данные и как