В этом увлекательном инженерном проекте вы научитесь отслеживать перемещения пользователей по их сканированиям с телефона. Цель проекта - использовать Elasticsearch как поисковую систему для анализа набора данных, в котором 100,000 пользователей посещают магазины и делают 1,000,000 сканирований.
Вы создадите собственный набор данных на Python и Pandas, используя открытый датасет магазинов Сан-Франциско, содержащий более 140,000 магазинов с их названиями и координатами. Из этого датасета вы выберете 10,000 магазинов и создадите 100,000 вымышленных пользователей, которые совершат в среднем по 10 сканирований каждый. После загрузки данных в Elasticsearch вы создадите пользовательский интерфейс на Streamlit для визуализации данных.
Интерфейс вашего приложения включает:
Поиск по названию магазина
Поиск по ZIP-коду для фильтрации магазинов по районам
Поиск по идентификатору бизнеса для анализа посещений
Поиск и отслеживание по Device ID, чтобы видеть, где побывал конкретный пользователь
В процессе работы над проектом вы научитесь:
Преобразовывать данные и загружать их в формате parquet в Elasticsearch
Работать с Kibana для управления индексами и поиска документов
Создавать интерактивный интерфейс на Streamlit с элементами управления, картами Folium и таблицами
Настраивать страницы и выполнять запросы к Elasticsearch
Программа курса
Подготовка датасета Сан-Франциско с 10,000 магазинами
Генерация 100,000 вымышленных пользователей
Слияние данных пользователей с магазинами
Создание 1,000,000 сканирований приложением
Подготовка данных для загрузки в Elasticsearch
Загрузка данных в Elasticsearch
Разработка Streamlit-приложения: карты, фильтры, таблицы
Настройка страницы и работа с запросами Elasticsearch
Требования
Перед началом работы рекомендуется пройти курс «Анализ логов в Elasticsearch» для понимания основ работы с Elasticsearch. Также, из-за обширной работы с данными, желательно пройти уроки по Pandas из курса «Python для инженеров данных».
Проект рассчитан на компьютер с 8 ГБ оперативной памяти.
Посмотреть больше
Этот материал находится в платной подписке. Оформи премиум подписку и смотри или слушай
Contact Tracing with Elasticsearch,
а также все другие курсы, прямо сейчас!
Я - старший инженер по данным и тренер, техноэнтузиаст и отец. Уже более десяти лет я увлечён Data Engineering. Сначала я стал инженером по данным самоучкой, а затем возглавил команду инженеров по данным в крупной компании. Когда я понял, насколько велика потребность в обучении в этой сфере, я последовал за своей страстью и основал собственную Академию Data Engineering. С тех пор я помог более чем 2 000 студентам достичь своих целей.
Команда внимательно читает ваши комментарии и оперативно на них реагирует. Вы можете спокойно оставлять запросы на обновления или задавать любые вопросы о курсе здесь.
Для дата-инженера одна из главных задач - следить за тем, как работают пайплайны, и вовремя выявлять ошибки. Когда что-то идёт не так, поиск причины часто превращается в утомительный ручной просмотр гигантских логов - это долго и неэффективно.Elasticsearch - это поисковый движок, который позволяет автоматизировать и ускорить этот процесс. Если отправлять логи напрямую в Elasticsearch, вы сможете находить нужную информацию за секунды - так же прос
Этот курс - ваш первый шаг в мир анализа данных с помощью одного из главных инструментов аналитика - Python. Без сложных терминов, продвинутой математики и требований к опыту. Только практичные, понятные уроки, которые научат вас анализировать данные на Python с нуля.
Если вы хотите вывести свои навыки в Data Engineering на новый уровень - вы по адресу. Python стал основным языком для анализа данных и машинного обучения, а в рамках этого курса вы научитесь эффективно использовать его для создания надёжных дата-пайплайнов и обработки данных.