Главная страницаКатегория обработка и анализ данныхСтриминг с Kafka и Spark

Стриминг с Kafka и Spark

Name: Стриминг с Kafka и Spark
Price: 13 USD
Rating: 3.3 (3 reviews)

Streaming with Kafka & Spark

Andreas Kretz

★3.3 (всего оценок - 3)

Продолжительность

2 ч 46 мин

Категория

Обработка и анализ данных

Количество уроков

40 Видео

Дата добавления

29 мая 2025 г., 20:20

Язык

Английский

Дата обновления

29 апр. 2026 г., 23:20

Курс "Стриминг с Kafka и Spark" — это практический проект, в котором вы шаг за шагом создадите полноценный потоковый пайплайн: от получения данных в реальном времени до их визуализации. Вы научитесь работать с Kafka, Spark, FastAPI, MongoDB и Streamlit в единой экосистеме, полностью разворачивая инфраструктуру в Docker.

Кому подойдет этот курс

Курс рекомендуется разработчикам, аналитикам и инженерам по данным, которые хотят освоить потоковую обработку и интеграцию современных инструментов. Для комфортного прохождения желательно иметь базовые знания FastAPI, Docker, Kafka, Spark и MongoDB.

Что вы изучите

1. Архитектура проекта и потокового пайплайна

Вы разберете устройство end-to-end системы и поймете, как объединяются API, Kafka, Spark и MongoDB в единую потоковую инфраструктуру.

2. Подготовка и преобразование данных

Загрузка датасета с Kaggle
Конвертация из CSV в JSON для дальнейшей работы
Создание структуры данных, готовой к стримингу

3. Создание FastAPI‑сервиса

Разработка API для приема входящих данных
Тестирование эндпоинтов через Postman
Подготовка API к интеграции с Kafka

4. Развертывание Kafka и API в Docker

Вы создадите Docker‑окружение, развернете Kafka, настроите топики и подготовите API-сервис, который будет публиковать сообщения в Kafka.

5. Spark Structured Streaming

Подготовка Docker‑контейнера со Spark
Настройка стриминга данных из Kafka
Организация базовой и расширенной логики обработки данных

6. Интеграция с MongoDB

Развертывание MongoDB и Mongo‑Express в Docker
Создание коллекций для потоковых данных
Запись вложенных JSON-документов через Spark Streaming

7. API‑клиент на Python

Вы разработаете скрипт, который автоматизирует отправку данных в API и проверите, что вся цепочка корректно записывает инвойсы в MongoDB.

8. Дашборд на Streamlit

Завершающим этапом станет создание удобного интерфейса визуализации данных с использованием Streamlit. Вы построите интерактивные таблицы и панели для просмотра счетов‑фактур и товаров.

Преимущества курса

Полностью практический подход: вы собираете реальный работающий пайплайн.
Работа с современными технологиями: Kafka, Spark, FastAPI, Docker, MongoDB.
Единая архитектура: все инструменты объединены в один согласованный проект.
Подготовка к реальным задачам: навыки потоковой обработки востребованы в инженерных командах.

Итог

Этот курс позволит вам накопить практический опыт работы с системами стриминга и научиться строить современные конвейеры обработки данных — от поступления информации до интерактивной визуализации.

Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум

Урок 1. 00:01:13
Introduction
Урок 2. 00:05:34
Project overview
Урок 3. 00:01:44
Docker Fundamentals
Урок 4. 00:02:49
The Dataset we use
Урок 5. 00:10:52
Transform CSV to JSONs
Урок 6. 00:03:43
API Schema
Урок 7. 00:09:42
Creating the API with FastAPI
Урок 8. 00:06:11
Testing the API with Postman
Урок 9. 00:02:34
Apache Kafka Goals
Урок 10. 00:03:36
Kafka Docker Compose Explained
Урок 11. 00:02:47
Startup Kafka Compose File
Урок 12. 00:07:12
Kafka Topics Setup
Урок 13. 00:04:14
Preparing the API Docker build
Урок 14. 00:03:26
Build the API
Урок 15. 00:02:49
Deploy the API
Урок 16. 00:02:07
Test the API Container with Kafka
Урок 17. 00:01:38
Recap API & Kafka
Урок 18. 00:04:39
Apache Spark Compose Config
Урок 19. 00:02:27
Startup Spark with Kafka & API
Урок 20. 00:06:35
Spark Ingest Kafka & Produce Kafka
Урок 21. 00:03:02
Setup Test configuration
Урок 22. 00:05:43
Test Spark Streaming Kafka
Урок 23. 00:02:31
Spark UI Monitoring
Урок 24. 00:04:23
MongoDB Goals
Урок 25. 00:03:59
MongoDB Docker Compose Conifg
Урок 26. 00:02:45
MongoDB Startup
Урок 27. 00:01:46
Prepare MongoDB Database & Collection
Урок 28. 00:06:32
Spark Code Streaming To MongoDB
Урок 29. 00:03:26
Transformations 1: Writing Kafka Message as String to MongoDB
Урок 30. 00:02:35
Transformations 2: Writing complete Kafka message to MongoDB
Урок 31. 00:04:29
Transformations 3: Writing Nested Document to MongoDB
Урок 32. 00:02:14
Transformations 4: Writing Messages as Document
Урок 33. 00:02:53
Spark Streaming Conclusion
Урок 34. 00:04:05
Writing the API Client
Урок 35. 00:05:37
Create Test Data & Run Client
Урок 36. 00:06:19
Streamlit Intro & Goals
Урок 37. 00:04:08
Query Customer Invoices
Урок 38. 00:04:16
Query Invoice Documents
Урок 39. 00:03:26
Project Summary
Урок 40. 00:06:24
Outlook

https://github.com/team-data-science/document-streaming

Автор - Andreas Kretz

Andreas Kretz

Я - старший инженер по данным и тренер, техноэнтузиаст и отец. Уже более десяти лет я увлечён Data Engineering. Сначала я стал инженером по данным самоучкой, а затем возглавил команду инженеров по данным в крупной компании. Когда я понял, насколько велика потребность в обучении в этой сфере, я последовал за своей страстью и основал собственную Академию Data Engineering. С тех пор я помог более чем 2 000 студентам достичь своих целей.

+26

Комментарии