В этом увлекательном инженерном проекте вы научитесь отслеживать перемещения пользователей по их сканированиям с телефона. Цель проекта - использовать Elasticsearch как поисковую систему для анализа набора данных, в котором 100,000 пользователей посещают магазины и делают 1,000,000 сканирований.
Вы создадите собственный набор данных на Python и Pandas, используя открытый датасет магазинов Сан-Франциско, содержащий более 140,000 магазинов с их названиями и координатами. Из этого датасета вы выберете 10,000 магазинов и создадите 100,000 вымышленных пользователей, которые совершат в среднем по 10 сканирований каждый. После загрузки данных в Elasticsearch вы создадите пользовательский интерфейс на Streamlit для визуализации данных.
Интерфейс вашего приложения включает:
Поиск по названию магазина
Поиск по ZIP-коду для фильтрации магазинов по районам
Поиск по идентификатору бизнеса для анализа посещений
Поиск и отслеживание по Device ID, чтобы видеть, где побывал конкретный пользователь
В процессе работы над проектом вы научитесь:
Преобразовывать данные и загружать их в формате parquet в Elasticsearch
Работать с Kibana для управления индексами и поиска документов
Создавать интерактивный интерфейс на Streamlit с элементами управления, картами Folium и таблицами
Настраивать страницы и выполнять запросы к Elasticsearch
Программа курса
Подготовка датасета Сан-Франциско с 10,000 магазинами
Генерация 100,000 вымышленных пользователей
Слияние данных пользователей с магазинами
Создание 1,000,000 сканирований приложением
Подготовка данных для загрузки в Elasticsearch
Загрузка данных в Elasticsearch
Разработка Streamlit-приложения: карты, фильтры, таблицы
Настройка страницы и работа с запросами Elasticsearch
Требования
Перед началом работы рекомендуется пройти курс «Анализ логов в Elasticsearch» для понимания основ работы с Elasticsearch. Также, из-за обширной работы с данными, желательно пройти уроки по Pandas из курса «Python для инженеров данных».
Проект рассчитан на компьютер с 8 ГБ оперативной памяти.
Посмотреть больше
Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум
Ограничение времени просмотра
Вы можете просматривать пробный урок только 10 минут. Получите полный доступ, чтобы смотреть без ограничений.
Я - старший инженер по данным и тренер, техноэнтузиаст и отец. Уже более десяти лет я увлечён Data Engineering. Сначала я стал инженером по данным самоучкой, а затем возглавил команду инженеров по данным в крупной компании. Когда я понял, насколько велика потребность в обучении в этой сфере, я последовал за своей страстью и основал собственную Академию Data Engineering. С тех пор я помог более чем 2 000 студентам достичь своих целей.