Одна из ключевых задач при создании платформы данных и пайплайнов - это выбор подходящих хранилищ данных. Именно этой теме и посвящён данный курс.
Мы рассмотрим реляционные и NoSQL базы данных, а также хранилища данных (data warehouses) и озёра данных (data lakes). Вы узнаете, когда стоит использовать тот или иной тип хранилища и как правильно интегрировать его в свою архитектуру.
После прохождения курса вы будете понимать, как хранить данные и как выбирать подходящее хранилище под конкретные задачи. Это поможет вам лучше ориентироваться в типах хранилищ и принимать обоснованные решения в работе дата-инженером. В следующих курсах мы подробно разберём конкретные технологии из каждой категории.
Основы хранилищ данных
Сначала вы изучите базовые принципы: чем отличаются OLTP (операционные транзакционные системы) и OLAP (аналитические системы), и в каких сценариях применяются. Также вы узнаете, что такое ETL (Extract, Transform, Load) и ELT (Extract, Load, Transform) и как эти подходы связаны с выбором хранилищ данных. В конце раздела я поделюсь ресурсом, где можно подробнее изучить типы хранилищ и сравнить их между собой.
Реляционные базы данных
Мы пройдём пошаговое руководство по выбору подходящего хранилища данных, которым вы сможете пользоваться в своей работе. Затем подробнее рассмотрим реляционные базы данных: вы узнаете про принципы CRUD и ACID, а также познакомитесь с примерами конкретных СУБД.
NoSQL базы данных
Здесь вы узнаете, что такое NoSQL, какие виды таких баз существуют (документные, колоночные, временные, поисковые), в чём их особенности и для каких задач они подходят. Также мы обсудим компромиссы между скоростью чтения и записи и важность постановки целей при выборе хранилища.
Хранилища и озёра данных
В завершении курса вы узнаете, что такое хранилища данных (Data Warehouses) и озёра данных (Data Lakes), в чём между ними разница и в каких случаях использовать каждое из решений.