Документоориентированные базы данных стремительно набирают популярность среди NoSQL-решений. Работа с JSON-документами в MongoDB - это удобно, гибко и интуитивно понятно. В этом курсе вы научитесь проектировать документы, работать с MongoDB и использовать её в составе платформ Data Science.
1. Основы MongoDB
Чтобы лучше понять, как работает MongoDB, мы начнём с краткого обзора реляционных баз данных и того, как они устроены. Затем вы узнаете, что такое документоориентированные хранилища, чем они отличаются от SQL-баз и как устроен документ в MongoDB (включая вложенные поддокументы).
2. Среда разработки и набор данных
Вы настроите тестовую среду с помощью Docker и подключите удобный пользовательский интерфейс (Mongo Express), чтобы просматривать данные и управлять коллекциями. Мы будем использовать образы Mongo и Mongo-Express с Docker Hub и создадим файл Docker Compose. Также я познакомлю вас с датасетом, с которым вы будете работать в ходе курса.
3. Проектирование схемы MongoDB
Вы спроектируете схему для своих данных, научитесь выполнять запросы и вручную создавать индексы. Это даст вам понимание, как правильно организовать структуру коллекций и почему выбранный подход имеет значение для производительности.
4. Работа с MongoDB
Перед практикой мы разберём базовые команды CLI для работы с базой, коллекциями и документами. Я покажу, как установить Python и PyMongo через WSL (Windows Subsystem for Linux).
В практической части вы научитесь использовать ключевые CRUD-операции: создание, чтение, обновление, удаление документов в MongoDB. Вы также поработаете с массивами поддокументов, узнаете, как их создавать, модифицировать и запрашивать. В конце мы рассмотрим основные операторы и познакомимся с транзакциями в MongoDB.
5. MongoDB в Data Science-платформах
В завершение курса вы увидите, как MongoDB может использоваться в проектах по анализу данных. Мы рассмотрим типовой кейс и обсудим, в каких задачах документоориентированные базы действительно полезны.