Во время моих коучинг-сессий снова и снова всплывает одна важная тема - проектирование схем. Поэтому я решил создать отдельный курс в академии, чтобы подробнее объяснить, как разрабатывать схемы данных для различных хранилищ.
В качестве учебного примера мы будем использовать e-commerce-датасет, знакомый вам из других курсов. Я также включил реальные схемы из коучинга, чтобы показать, как проектирование может выглядеть в разных сценариях.
Сначала мы обсудим, почему проектирование схем так важно и какую ключевую роль оно играет в работе дата-инженера. Вы также узнаете, что даже для NoSQL-хранилищ требуется продуманная схема - она помогает создать поддерживаемую структуру и избежать «болота данных» (data swamp)
Затем мы подробно рассмотрим, как разрабатывать схемы для различных типов хранилищ:
реляционных баз данных,
NoSQL-хранилищ,
колоночных хранилищ,
документных баз,
key-value-хранилищ,
и хранилищ данных (data warehouses).
Вы узнаете, как подходить к проектированию схем под разные задачи и архитектуры.
Освоив этот курс вместе с материалами из «Choosing Data Stores», вы сможете не только правильно выбрать хранилище под задачу, но и спроектировать для него эффективную и логичную схему. Это поможет вам оптимизировать хранение и доступ к данным в рамках вашей платформы.
Посмотреть больше
Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум
Ограничение времени просмотра
Вы можете просматривать пробный урок только 10 минут. Получите полный доступ, чтобы смотреть без ограничений.
Я - старший инженер по данным и тренер, техноэнтузиаст и отец. Уже более десяти лет я увлечён Data Engineering. Сначала я стал инженером по данным самоучкой, а затем возглавил команду инженеров по данным в крупной компании. Когда я понял, насколько велика потребность в обучении в этой сфере, я последовал за своей страстью и основал собственную Академию Data Engineering. С тех пор я помог более чем 2 000 студентам достичь своих целей.
Команда внимательно читает ваши комментарии и оперативно на них реагирует. Вы можете спокойно оставлять запросы на обновления или задавать любые вопросы о курсе здесь.
Одна из ключевых задач при создании платформы данных и пайплайнов - это выбор подходящих хранилищ данных. Именно этой теме и посвящён данный курс.Мы рассмотрим реляционные и NoSQL базы данных, а также хранилища данных (data warehouses) и озёра данных (data lakes). Вы узнаете, когда стоит использовать тот или иной тип хранилища и как правильно интегрировать его в свою архитектуру.После прохождения курса вы будете понимать, как хранить данные и как
Реляционное моделирование широко применяется при построении транзакционных баз данных. Возможно, вы скажете: «Но я не собираюсь становиться backend-инженером». Однако знание не только того, как перемещать данные, но и как грамотно их хранить, - ключевой навык. Это включает в себя создание масштабируемой структуры данных, обеспечивающей быструю обработку запросов и эффективное извлечение информации.
В современном мире, где данные играют ключевую роль, эффективная организация информации - основа для качественной аналитики и построения отчётов. Многомерное моделирование данных - это важный подход, позволяющий структурировать данные для быстрого доступа и принятия обоснованных решений.Этот курс представляет собой подробное введение в основные концепции размерного моделирования. Вы узнаете, как работают фактные и размерные таблицы, что такое мед
В роли инженера данных вы будете регулярно работать с аналитическими платформами, где компании хранят данные в Data Lakes и Data Warehouses для построения визуализаций и создания моделей машинного обучения.Современные хранилища данных, такие как AWS Redshift, Google BigQuery и Snowflake, позволяют загружать данные напрямую из файлов в Data Lake. Эта интеграция делает работу с хранилищами гибкой и удобной для аналитических задач.