Этот курс - идеальный старт для тех, кто хочет освоить облачные технологии и начать работать с Amazon Web Services (AWS), одной из самых популярных платформ для обработки данных. Курс особенно полезен для начинающих инженеров данных и тех, кто ищет первую работу в этой сфере.
В рамках курса вы создадите полноценный end-to-end проект на основе данных из интернет-магазина. Шаг за шагом вы научитесь моделировать данные, строить пайплайны и работать с ключевыми инструментами AWS: Lambda, API Gateway, Kinesis, DynamoDB, Redshift, Glue и S3.
Что вас ждет в курсе:
Работа с данными
Изучите структуру и типы данных, с которыми будете работать. Определите цели проекта - важный шаг для успешной реализации.
Проектирование платформы и пайплайнов
Познакомитесь с архитектурой платформы и спроектируете пайплайны: для загрузки данных, их хранения в S3 (Data Lake), обработки в DynamoDB (NoSQL) и Redshift (Data Warehouse). Научитесь строить пайплайны для интерфейсов и потоковой передачи данных.
Основы AWS
Создадите аккаунт в AWS, разберетесь в управлении доступом и безопасности (IAM), познакомитесь с CloudWatch и библиотекой Boto3 для работы с AWS через Python.
Пайплайн загрузки данных (Data Ingestion)
Создадите API через API Gateway, отправите данные в Kinesis, настроите IAM и разработаете ingestion pipeline на Python.
Передача данных в S3 (Data Lake)
Настроите Lambda-функцию для получения данных из Kinesis и их сохранения в S3.
Передача данных в DynamoDB
Реализуете пайплайн для передачи данных из Kinesis в DynamoDB - быструю NoSQL-базу данных.
API для доступа к данным
Создадите API для работы с данными в базе. Узнаете, почему прямой доступ из визуализации к базе данных - плохая практика.
Визуализация данных в Redshift
Отправите потоковые данные в Redshift через Kinesis Firehose, создадите кластер Redshift, настроите безопасность, создадите таблицы и настроите Firehose. Подключите Power BI к Redshift для анализа данных.
Batch-обработка: AWS Glue, S3 и Redshift
Освоите пакетную обработку данных: настроите и запустите Glue для записи данных из S3 в Redshift, разберетесь с Crawler и каталогом данных, научитесь отлаживать процессы.
Этот курс поможет вам получить практический опыт создания потоковых и пакетных пайплайнов в AWS, а также освоить ключевые инструменты для работы с данными в облаке.
Посмотреть больше
Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум
Ограничение времени просмотра
Вы можете просматривать пробный урок только 10 минут. Получите полный доступ, чтобы смотреть без ограничений.
Я - старший инженер по данным и тренер, техноэнтузиаст и отец. Уже более десяти лет я увлечён Data Engineering. Сначала я стал инженером по данным самоучкой, а затем возглавил команду инженеров по данным в крупной компании. Когда я понял, насколько велика потребность в обучении в этой сфере, я последовал за своей страстью и основал собственную Академию Data Engineering. С тех пор я помог более чем 2 000 студентам достичь своих целей.