Курс "Стриминг с Kafka и Spark" — это практический проект, в котором вы шаг за шагом создадите полноценный потоковый пайплайн: от получения данных в реальном времени до их визуализации. Вы научитесь работать с Kafka, Spark, FastAPI, MongoDB и Streamlit в единой экосистеме, полностью разворачивая инфраструктуру в Docker.
Кому подойдет этот курс
Курс рекомендуется разработчикам, аналитикам и инженерам по данным, которые хотят освоить потоковую обработку и интеграцию современных инструментов. Для комфортного прохождения желательно иметь базовые знания FastAPI, Docker, Kafka, Spark и MongoDB.
Что вы изучите
1. Архитектура проекта и потокового пайплайна
Вы разберете устройство end-to-end системы и поймете, как объединяются API, Kafka, Spark и MongoDB в единую потоковую инфраструктуру.
2. Подготовка и преобразование данных
Загрузка датасета с Kaggle
Конвертация из CSV в JSON для дальнейшей работы
Создание структуры данных, готовой к стримингу
3. Создание FastAPI‑сервиса
Разработка API для приема входящих данных
Тестирование эндпоинтов через Postman
Подготовка API к интеграции с Kafka
4. Развертывание Kafka и API в Docker
Вы создадите Docker‑окружение, развернете Kafka, настроите топики и подготовите API-сервис, который будет публиковать сообщения в Kafka.
5. Spark Structured Streaming
Подготовка Docker‑контейнера со Spark
Настройка стриминга данных из Kafka
Организация базовой и расширенной логики обработки данных
6. Интеграция с MongoDB
Развертывание MongoDB и Mongo‑Express в Docker
Создание коллекций для потоковых данных
Запись вложенных JSON-документов через Spark Streaming
7. API‑клиент на Python
Вы разработаете скрипт, который автоматизирует отправку данных в API и проверите, что вся цепочка корректно записывает инвойсы в MongoDB.
8. Дашборд на Streamlit
Завершающим этапом станет создание удобного интерфейса визуализации данных с использованием Streamlit. Вы построите интерактивные таблицы и панели для просмотра счетов‑фактур и товаров.
Преимущества курса
Полностью практический подход: вы собираете реальный работающий пайплайн.
Работа с современными технологиями: Kafka, Spark, FastAPI, Docker, MongoDB.
Единая архитектура: все инструменты объединены в один согласованный проект.
Подготовка к реальным задачам: навыки потоковой обработки востребованы в инженерных командах.
Итог
Этот курс позволит вам накопить практический опыт работы с системами стриминга и научиться строить современные конвейеры обработки данных — от поступления информации до интерактивной визуализации.
Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум
Ограничение времени просмотра
Вы можете просматривать пробный урок только 10 минут. Получите полный доступ, чтобы смотреть без ограничений.
Я - старший инженер по данным и тренер, техноэнтузиаст и отец. Уже более десяти лет я увлечён Data Engineering. Сначала я стал инженером по данным самоучкой, а затем возглавил команду инженеров по данным в крупной компании. Когда я понял, насколько велика потребность в обучении в этой сфере, я последовал за своей страстью и основал собственную Академию Data Engineering. С тех пор я помог более чем 2 000 студентам достичь своих целей.