В этом увлекательном инженерном проекте вы научитесь отслеживать перемещения пользователей по их сканированиям с телефона. Цель проекта - использовать Elasticsearch как поисковую систему для анализа набора данных, в котором 100,000 пользователей посещают магазины и делают 1,000,000 сканирований.
Вы создадите собственный набор данных на Python и Pandas, используя открытый датасет магазинов Сан-Франциско, содержащий более 140,000 магазинов с их названиями и координатами. Из этого датасета вы выберете 10,000 магазинов и создадите 100,000 вымышленных пользователей, которые совершат в среднем по 10 сканирований каждый. После загрузки данных в Elasticsearch вы создадите пользовательский интерфейс на Streamlit для визуализации данных.
Интерфейс вашего приложения включает:
Поиск по названию магазина
Поиск по ZIP-коду для фильтрации магазинов по районам
Поиск по идентификатору бизнеса для анализа посещений
Поиск и отслеживание по Device ID, чтобы видеть, где побывал конкретный пользователь
В процессе работы над проектом вы научитесь:
Преобразовывать данные и загружать их в формате parquet в Elasticsearch
Работать с Kibana для управления индексами и поиска документов
Создавать интерактивный интерфейс на Streamlit с элементами управления, картами Folium и таблицами
Настраивать страницы и выполнять запросы к Elasticsearch
Программа курса
Подготовка датасета Сан-Франциско с 10,000 магазинами
Генерация 100,000 вымышленных пользователей
Слияние данных пользователей с магазинами
Создание 1,000,000 сканирований приложением
Подготовка данных для загрузки в Elasticsearch
Загрузка данных в Elasticsearch
Разработка Streamlit-приложения: карты, фильтры, таблицы
Настройка страницы и работа с запросами Elasticsearch
Требования
Перед началом работы рекомендуется пройти курс «Анализ логов в Elasticsearch» для понимания основ работы с Elasticsearch. Также, из-за обширной работы с данными, желательно пройти уроки по Pandas из курса «Python для инженеров данных».
Проект рассчитан на компьютер с 8 ГБ оперативной памяти.
Посмотреть больше
Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум
Ограничение времени просмотра
Вы можете просматривать пробный урок только 10 минут. Получите полный доступ, чтобы смотреть без ограничений.
Я - старший инженер по данным и тренер, техноэнтузиаст и отец. Уже более десяти лет я увлечён Data Engineering. Сначала я стал инженером по данным самоучкой, а затем возглавил команду инженеров по данным в крупной компании. Когда я понял, насколько велика потребность в обучении в этой сфере, я последовал за своей страстью и основал собственную Академию Data Engineering. С тех пор я помог более чем 2 000 студентам достичь своих целей.
Команда внимательно читает ваши комментарии и оперативно на них реагирует. Вы можете спокойно оставлять запросы на обновления или задавать любые вопросы о курсе здесь.
Для дата-инженера одна из главных задач - следить за тем, как работают пайплайны, и вовремя выявлять ошибки. Когда что-то идёт не так, поиск причины часто превращается в утомительный ручной просмотр гигантских логов - это долго и неэффективно.Elasticsearch - это поисковый движок, который позволяет автоматизировать и ускорить этот процесс. Если отправлять логи напрямую в Elasticsearch, вы сможете находить нужную информацию за секунды - так же прос
Этот курс - ваш первый шаг в мир анализа данных с помощью одного из главных инструментов аналитика - Python. Без сложных терминов, продвинутой математики и требований к опыту. Только практичные, понятные уроки, которые научат вас анализировать данные на Python с нуля.
Если вы хотите вывести свои навыки в Data Engineering на новый уровень - вы по адресу. Python стал основным языком для анализа данных и машинного обучения, а в рамках этого курса вы научитесь эффективно использовать его для создания надёжных дата-пайплайнов и обработки данных.