Этот курс поможет вам освоить полный цикл работы с данными и машинным обучением в AWS — от получения информации через API до её анализа, хранения, визуализации и контейнеризации. Практический подход, современные инструменты и развертывание реального ML-приложения делают программу ценной как для новичков в AWS, так и для специалистов, которые хотят систематизировать свои навыки.
Чему вы научитесь
Вы шаг за шагом создадите рабочий пайплайн: соберёте данные, обработаете их с помощью NLP, сохраните в базу, создадите Streamlit-приложение и развернёте его в AWS ECS в контейнере. Всё — в единой структуре, которую сможете масштабировать под свои проекты.
Работа с Twitter API: получение и подготовка данных
На первой стадии вы научитесь интегрироваться с Twitter API и создавать фундамент для будущего пайплайна.
Основные навыки
настройка доступа к Twitter API;
получение данных пользователя в формате JSON;
разбор структуры payload и подготовка данных к обработке;
создание базового ETL-процесса на Python.
Создание базы данных Postgres в Amazon RDS
Хранение данных — обязательная часть любого ML/аналитического проекта. Вы разберётесь, как построить надёжную и безопасную архитектуру с помощью AWS RDS.
Что будет разобрано
создание и настройка Postgres-инстанса в Amazon RDS;
работа с виртуальными облачными сетями VPC и открытие доступа к БД;
создание таблиц и выполнение SQL-запросов через PGAdmin;
зачем и как сохранять JSON-твиты в структуре Postgres.
Lambda-функция для NLP: анализ твитов с помощью NLTK
На этом этапе вы добавите в проект машинное обучение и автоматическую обработку входящих данных.
Ключевые шаги
создание Lambda-функции для анализа тональности текста (sentiment analysis);
использование алгоритмов из библиотеки NLTK;
подключение зависимостей через K-Layers и собственные Lambda Layers;
настройка автоматических запусков функции через EventBridge;
сохранение обработанных данных в RDS.
Управление зависимостями и создание Streamlit-приложения
После сбора и анализа данных вы создадите инструмент для визуализации результатов — полноценный дашборд на Streamlit.
Что вы освоите
работу с Anaconda3 и создание conda-окружений;
управление зависимостями проекта с помощью Poetry;
запуск и тестирование Streamlit-приложения локально;
оптимизацию структуры проекта под дальнейшее развертывание.
Контейнеризация и развертывание Streamlit в AWS ECS
Завершающий этап — упаковка приложения в Docker-контейнер и его развертывание в инфраструктуре AWS.
Этапы развертывания
создание Docker-образа приложения;
работа с Amazon Elastic Container Registry (ECR);
настройка AWS CLI и управление пользователями IAM;
создание кластера ECS Fargate;
развертывание контейнера в виде задачи (task) и тестирование приложения.
Итог
По завершении курса у вас будет полноценный рабочий проект, развёрнутый на AWS: от получения данных до визуализации в продакшн-среде. Вы не только изучите AWS-сервисы, но и поймёте, как объединять их в цельную систему, применимую в реальной работе.
Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум
Ограничение времени просмотра
Вы можете просматривать пробный урок только 10 минут. Получите полный доступ, чтобы смотреть без ограничений.
Я - старший инженер по данным и тренер, техноэнтузиаст и отец. Уже более десяти лет я увлечён Data Engineering. Сначала я стал инженером по данным самоучкой, а затем возглавил команду инженеров по данным в крупной компании. Когда я понял, насколько велика потребность в обучении в этой сфере, я последовал за своей страстью и основал собственную Академию Data Engineering. С тех пор я помог более чем 2 000 студентам достичь своих целей.