Прокачайте навыки работы с большими данными и поисковыми системами, создав полноценный проект по отслеживанию перемещений пользователей на основе их сканирований. В этом практическом курсе вы шаг за шагом построите систему Contact Tracing, используя Elasticsearch, Python, Pandas и Streamlit.
Что представляет собой проект
Вы создадите реалистичный набор данных, включающий 100,000 пользователей, которые совершают более 1,000,000 сканирований в магазинах Сан‑Франциско. На основе открытого каталога из 140,000 магазинов вы выберете 10,000 объектов и сгенерируете детализированные пользовательские маршруты.
Практический фокус
Вместо теории вы будете работать с реальными инструментами: от подготовки данных в формате parquet до визуализации перемещений пользователей на интерактивных картах.
Функциональность создаваемого приложения
Вы разработаете удобный интерфейс на Streamlit, который позволит анализировать посещения магазинов и перемещения пользователей.
Возможности интерфейса
Поиск магазинов по названию
Фильтрация по ZIP‑коду для анализа районов
Поиск по идентификатору бизнеса
Отслеживание перемещений по Device ID
Какие навыки вы освоите
Генерация и преобразование больших датасетов при помощи Python и Pandas
Экспорт данных в формате parquet и загрузка их в Elasticsearch
Работа с Kibana для анализа индексов и документов
Создание Streamlit‑приложения с картами Folium, фильтрами и таблицами
Построение запросов к Elasticsearch и настройка страницы приложения
Структура курса
Основные этапы проекта
Подготовка набора данных из 10,000 магазинов Сан‑Франциско
Генерация 100,000 пользователей и их маршрутов
Создание выборки из 1,000,000 сканирований
Слияние и очистка данных
Конвертация данных в формат parquet и загрузка в Elasticsearch
Разработка Streamlit‑приложения: карты, фильтры, таблицы
Настройка запросов к Elasticsearch и логики отображения данных
Требования для прохождения курса
Для успешной работы с проектом рекомендуется иметь базовые знания Elasticsearch (курс «Анализ логов в Elasticsearch») и уверенно владеть Pandas из курса «Python для инженеров данных».
Курс оптимально проходит на компьютере с 8 ГБ оперативной памяти и поддержкой Python 3.
Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум
Ограничение времени просмотра
Вы можете просматривать пробный урок только 10 минут. Получите полный доступ, чтобы смотреть без ограничений.
Я - старший инженер по данным и тренер, техноэнтузиаст и отец. Уже более десяти лет я увлечён Data Engineering. Сначала я стал инженером по данным самоучкой, а затем возглавил команду инженеров по данным в крупной компании. Когда я понял, насколько велика потребность в обучении в этой сфере, я последовал за своей страстью и основал собственную Академию Data Engineering. С тех пор я помог более чем 2 000 студентам достичь своих целей.