В роли инженера данных вы будете регулярно работать с аналитическими платформами, где компании хранят данные в Data Lakes и Data Warehouses для построения визуализаций и создания моделей машинного обучения.
Современные хранилища данных, такие как AWS Redshift, Google BigQuery и Snowflake, позволяют загружать данные напрямую из файлов в Data Lake. Эта интеграция делает работу с хранилищами гибкой и удобной для аналитических задач.
В этом курсе вы научитесь:
Как использовать Data Lakes, Data Warehouses и BI-инструменты в единой системе
Как загружать данные в Data Lakes и визуализировать их в отчётах
Как строить интеграции в Google Cloud Platform и AWS
Как работает архитектура ETL/ELT и как её применять в современных хранилищах данных
Основы Data Warehouses и Data Lakes
Роль хранилищ данных в аналитических платформах
Как данные загружаются в Data Warehouse через ETL/ELT
Что такое Data Lakes и как их использовать
Как работать с файлами напрямую в озере данных
Практика на GCP: Cloud Storage, BigQuery и Data Studio
Настройка Cloud Storage, создание таблицы в BigQuery
Визуализация данных в Data Studio
Понимание общих принципов работы облачных платформ
Практика на AWS: S3, Athena, Glue и Quicksight
Создание интеграции данных через S3, Athena и Quicksight
Настройка Glue Data Catalog для управления данными
Подробная настройка и интеграция Glue
Резюме и бонус-урок: AWS Redshift Spectrum
Подведение итогов курса
Дополнительный модуль по работе с Redshift Spectrum, используя подготовленный Data Catalog из AWS-проекта
Необходимые знания
Основы работы с Data Warehouses (рекомендуется пройти курс «Хранилища данных» в академии)
Базовые знания AWS Athena и Redshift (для блока с Redshift Spectrum используется подготовленный Data Catalog из проекта AWS)
Этот курс поможет вам освоить современные подходы к построению систем хранения и обработки данных и научиться эффективно использовать возможности Data Lakes и Data Warehouses для аналитики.
Посмотреть больше
Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум
Ограничение времени просмотра
Вы можете просматривать пробный урок только 10 минут. Получите полный доступ, чтобы смотреть без ограничений.
Я - старший инженер по данным и тренер, техноэнтузиаст и отец. Уже более десяти лет я увлечён Data Engineering. Сначала я стал инженером по данным самоучкой, а затем возглавил команду инженеров по данным в крупной компании. Когда я понял, насколько велика потребность в обучении в этой сфере, я последовал за своей страстью и основал собственную Академию Data Engineering. С тех пор я помог более чем 2 000 студентам достичь своих целей.
Команда внимательно читает ваши комментарии и оперативно на них реагирует. Вы можете спокойно оставлять запросы на обновления или задавать любые вопросы о курсе здесь.
Во время моих коучинг-сессий снова и снова всплывает одна важная тема - проектирование схем. Поэтому я решил создать отдельный курс в академии, чтобы подробнее объяснить, как разрабатывать схемы данных для различных хранилищ.В качестве учебного примера мы будем использовать e-commerce-датасет, знакомый вам из других курсов. Я также включил реальные схемы из коучинга, чтобы показать, как проектирование может выглядеть в разных сценариях.
Одна из ключевых задач при создании платформы данных и пайплайнов - это выбор подходящих хранилищ данных. Именно этой теме и посвящён данный курс.Мы рассмотрим реляционные и NoSQL базы данных, а также хранилища данных (data warehouses) и озёра данных (data lakes). Вы узнаете, когда стоит использовать тот или иной тип хранилища и как правильно интегрировать его в свою архитектуру.После прохождения курса вы будете понимать, как хранить данные и как
Симулятор Data Warehouse Analytics Engineer на базе dbt для инженеров и аналитиков данных
Курс «Data Warehouse Analytics Engineer на базе dbt» - это практическая программа, которая помогает освоить одну из ключевых технологий современной аналитики данных. Вы научитесь строить хранилища и трансформации на dbt, применять лучшие практики DataOps, автоматизировать процессы и обеспечивать качество данных.Обучение построено в формате «миссий» - пошаговых заданий, которые ведут от базовой настройки проекта и подключения к PostgreSQL до продв