Современные хранилища данных становятся ключевым элементом аналитической инфраструктуры компаний. Data Lakes и Data Warehouses позволяют объединять разнородные источники, ускорять работу с данными и предоставлять аналитикам удобные инструменты для визуализации и моделирования. В этом курсе вы погрузитесь в принципы построения современных платформ данных и освоите практические навыки на GCP и AWS.
Что делает современные хранилища данных востребованными
Компании ежедневно генерируют огромные объёмы данных, и классические подходы к хранению информации уже не справляются с такими нагрузками. Именно поэтому на первый план выходят облачные решения, позволяющие масштабировать системы, обрабатывать данные почти в реальном времени и легко интегрировать различные сервисы между собой.
Вы узнаете, как работают Data Lakes и Data Warehouses, чем они отличаются, когда применять каждый из подходов и как объединять их в единую экосистему.
Интеграция Data Lake и Data Warehouse
Современные платформы — такие как AWS Redshift, Google BigQuery и Snowflake — позволяют загружать данные напрямую из озера данных, используя нативные интеграции и внешние таблицы. Это делает аналитику гибкой, быстрой и менее затратной.
Чему вы научитесь в ходе курса
Единая экосистема данных
Использовать Data Lakes, Data Warehouses и BI-инструменты как единую архитектуру.
Загружать данные в озеро и подключать их к отчётам и визуализациям.
Понимать работу ETL/ELT и применять её на реальных примерах.
Практика на Google Cloud Platform
Настроите Cloud Storage и создадите таблицы в BigQuery.
Построите визуализации в Looker Studio (Data Studio).
Разберётесь в ключевых принципах работы облачных сервисов.
Практика на AWS
Создадите интеграции данных между S3, Athena и Quicksight.
Сконфигурируете AWS Glue Data Catalog и научитесь управлять метаданными.
Отработаете расширенные настройки Glue для построения эффективных пайплайнов.
Дополнительный модуль: Redshift Spectrum
Познакомитесь с внешними таблицами и аналитикой по данным в S3.
Научитесь использовать подготовленный Data Catalog для ускорения обработки данных.
Теоретическая база курса
Основы Data Warehouses и Data Lakes
Зачем нужны хранилища данных и какую роль они играют в аналитике.
Как строятся ETL/ELT‑процессы и в чём разница между ними.
Понимание принципов Data Lake Architecture.
Работа с файлами напрямую в озере данных.
Требуемые знания для комфортного обучения
Базовые знания Data Warehouses (рекомендуется пройти курс «Хранилища данных»).
Понимание основ AWS Athena и Redshift для прохождения блока по Redshift Spectrum.
Кому подойдёт этот курс
Курс ориентирован на начинающих и практикующих инженеров данных, аналитиков данных и специалистов, которые хотят разобраться в архитектуре современных хранилищ и научиться работать с облачными платформами на практике.
Что вы получите по итогам обучения
Готовые навыки работы с GCP и AWS.
Понимание архитектуры данных и современных подходов к проектированию хранилищ.
Умение строить аналитические решения, используя Data Lakes и Data Warehouses.
Практический опыт интеграции данных и визуализации.
Этот курс поможет вам уверенно ориентироваться в мире современных платформ данных и применять полученные знания в реальных задачах бизнеса.
Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум
Ограничение времени просмотра
Вы можете просматривать пробный урок только 10 минут. Получите полный доступ, чтобы смотреть без ограничений.
Я - старший инженер по данным и тренер, техноэнтузиаст и отец. Уже более десяти лет я увлечён Data Engineering. Сначала я стал инженером по данным самоучкой, а затем возглавил команду инженеров по данным в крупной компании. Когда я понял, насколько велика потребность в обучении в этой сфере, я последовал за своей страстью и основал собственную Академию Data Engineering. С тех пор я помог более чем 2 000 студентам достичь своих целей.