Databricks - одна из самых популярных платформ для обработки данных с использованием Apache Spark и создания современных хранилищ данных (Lakehouse). В этом курсе вы изучите всё, что нужно для уверенного старта работы с Databricks: от основ платформы до создания собственных пайплайнов и подключения BI-инструментов.
Вы узнаете, как работает Databricks, зачем его использовать, создадите свои ноутбуки, настроите кластер вычислений и познакомитесь с Databricks SQL Warehouse.
1. Установка и подготовка данных
Прежде чем приступить к практике, вы настроите Databricks на AWS, создадите S3-бакет для хранения данных и рабочее пространство. Также вы разберёте шаблон AWS CloudFormation, который использует Databricks, чтобы понимать, как инфраструктура разворачивается автоматически.
Проведёте обзор созданного кластера и ознакомитесь с датасетом, на основе которого будете строить свой ETL-процесс.
2. Практика: обработка данных
Вы изучите два способа загрузки данных в Databricks: напрямую или через S3 с последующей интеграцией. Также научитесь создавать репозитории кода. Это можно сделать двумя способами: подключить GitHub-репозиторий или создать репозиторий вручную прямо в Databricks.
Во время проекта вы выполните две ключевые задачи:
- ETL-обработка данных: запустите пайплайн, выполните преобразование, создадите таблицы и сохраните их в Databricks.
- Визуализация данных: в отдельном нотбуке выполните анализ с помощью Spark SQL и создадите визуализации.
Вы также узнаете, как хранятся данные внутри Databricks.
3. Хранилище данных и внешние интеграции
В завершение вы подключите Power BI к Databricks и попробуете оба способа интеграции: через вычислительный кластер и через SQL Warehouse. Таким образом, вы научитесь интегрировать Databricks с внешними аналитическими инструментами.
Рекомендации перед началом
Перед тем как начать этот курс, рекомендуется пройти курс "Основы Apache Spark". С этими базовыми знаниями вы сможете эффективно работать в Databricks.
Требования:
- Аккаунт AWS
- Аккаунт Databricks
- Знания основ Spark (достаточно уровня курса «Spark Fundamentals»)
- Затраты на AWS минимальны (особенно в рамках бесплатного уровня)