Инженерия данных на AWS — это практико-ориентированный курс, который помогает новичкам в сфере Data Engineering освоить ключевые облачные инструменты и научиться строить полноценные дата‑платформы на базе Amazon Web Services. Материал курса разработан так, чтобы вы смогли уверенно применять полученные знания в реальных проектах и подготовиться к работе инженером данных.
Что дает этот курс
Вы шаг за шагом создадите end‑to‑end инфраструктуру для обработки данных интернет‑магазина: от сбора и потоковой передачи до хранения, трансформации и визуализации. Обучение построено на реальных задачах, благодаря чему вы освоите ключевые сервисы AWS и типичные паттерны построения дата‑пайплайнов.
Практика с реальными данными
Работая с данными интернет‑магазина, вы изучите их структуру, определите цели аналитики и сформируете требования к своим будущим пайплайнам.
Основные разделы курса
Работа с данными
Разбор типов данных и их особенностей.
Понимание бизнес‑целей проекта и определение требований к архитектуре.
Проектирование платформы и пайплайнов
Вы научитесь проектировать архитектуру потоковой и пакетной обработки данных, создадите собственный Data Lake и Data Warehouse.
Пайплайны загрузки данных в S3 (Data Lake).
Обработка данных в DynamoDB (NoSQL) и Redshift (DWH).
Создание API и настройка потоковой передачи данных.
Основы AWS для инженера данных
Создание AWS‑аккаунта и базовая настройка безопасности.
Работа с IAM: роли, политики, права доступа.
Использование CloudWatch для мониторинга.
Автоматизация с помощью Boto3 и Python.
Пайплайн загрузки данных (Data Ingestion)
Научитесь строить надежные ingestion‑пайплайны, используя серверлесс‑архитектуру AWS.
Создание API через API Gateway.
Потоковая передача данных в Kinesis.
Настройка IAM и разработка ingestion‑логики на Python.
Передача данных в S3 (Data Lake)
Вы создадите Lambda‑функцию, которая принимает данные из Kinesis и загружает их в S3, формируя надежное хранилище в формате Data Lake.
Передача данных в DynamoDB
Вы построите быстрый и отказоустойчивый NoSQL‑пайплайн:
чтение данных из Kinesis,
загрузка в DynamoDB,
оптимизация схемы хранения.
Создание API для доступа к данным
Вы разберете, как правильно предоставлять доступ к данным через API и почему подключение BI‑систем напрямую к базе данных — рискованная практика.
Визуализация данных в Redshift
Передача потоковых данных в Redshift через Kinesis Firehose.
Создание и настройка Redshift‑кластера.
Настройка безопасности и создание таблиц.
Подключение Power BI для анализа данных.
Batch‑обработка: AWS Glue, S3 и Redshift
Вы освоите инструменты для пакетной обработки больших объемов данных:
настройка и запуск AWS Glue,
работа с Crawler и Data Catalog,
запись данных из S3 в Redshift,
отладка ETL‑процессов.
Почему этот курс полезен
По завершении обучения вы получите практический опыт работы с ключевыми сервисами AWS, а также навыки построения потоковых и пакетных пайплайнов — то, что требуется инженерам данных в современных компаниях. Программа курса поможет вам уверенно пройти интервью и начать карьеру в области Data Engineering.
Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум
Ограничение времени просмотра
Вы можете просматривать пробный урок только 10 минут. Получите полный доступ, чтобы смотреть без ограничений.
Я - старший инженер по данным и тренер, техноэнтузиаст и отец. Уже более десяти лет я увлечён Data Engineering. Сначала я стал инженером по данным самоучкой, а затем возглавил команду инженеров по данным в крупной компании. Когда я понял, насколько велика потребность в обучении в этой сфере, я последовал за своей страстью и основал собственную Академию Data Engineering. С тех пор я помог более чем 2 000 студентам достичь своих целей.