Инженерия данных с использованием Databricks – практический курс, который поможет вам уверенно работать с одной из ведущих платформ для обработки данных и построения Lakehouse‑архитектуры. Вы освоите ключевые инструменты Databricks, научитесь создавать ETL‑процессы, автоматизировать пайплайны и подключать аналитические сервисы для визуализации данных.
Что вас ждёт в курсе
Курс сочетает детальные объяснения, разбор реальных сценариев использования Databricks и практику, приближенную к задачам инженеров данных. Вы шаг за шагом пройдёте путь от настройки окружения до интеграции с BI‑инструментами.
1. Установка и подготовка данных
Вы начнёте с развёртывания Databricks на AWS и создания инфраструктуры для хранения данных.
Создадите S3‑бакет для загрузки данных.
Настроите рабочее пространство Databricks.
Разберёте CloudFormation‑шаблон, который автоматически разворачивает инфраструктуру.
Проведёте обзор созданного кластера и подготовите исходный датасет для дальнейшей ETL‑обработки.
2. Практика: обработка данных и создание пайплайнов
На практических шагах вы освоите работу с данными в Databricks и Spark.
Загрузка и организация данных
Изучите методы загрузки данных напрямую и через S3.
Создадите собственные репозитории: подключите GitHub или развернёте репозиторий внутри Databricks.
ETL‑процесс
Создание и запуск ETL‑пайплайна: преобразование данных, создание таблиц, сохранение результатов в Databricks.
Визуализация данных: анализ в Spark SQL, построение графиков и создание отчётов.
Понимание того, как именно Databricks хранит данные внутри платформы.
3. Хранилище данных и внешние интеграции
На финальном этапе вы научитесь подключать внешние аналитические инструменты к Databricks.
Интеграция с Power BI через вычислительный кластер.
Интеграция через SQL Warehouse — оптимальный вариант для аналитических запросов.
Сравнение способов подключения и рекомендации по выбору подходящего.
Рекомендации перед началом
Чтобы максимально эффективно пройти курс, рекомендуется заранее изучить основы Spark. Отличным вариантом станет предварительное прохождение курса «Основы Apache Spark».
Требования к участникам
Аккаунт AWS.
Аккаунт Databricks.
Базовые знания Spark (уровня курса «Spark Fundamentals» достаточно).
Готовность использовать минимальные ресурсы AWS (в пределах бесплатного уровня).
Зачем стоит пройти этот курс
Завершив обучение, вы сможете уверенно использовать Databricks в инженерии данных, выстраивать надёжные ETL‑процессы, автоматизировать работу с данными и подключать профессиональные BI‑инструменты. Эти навыки востребованы в компаниях, работающих с большими данными, аналитикой и облачными технологиями.
Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум
Ограничение времени просмотра
Вы можете просматривать пробный урок только 10 минут. Получите полный доступ, чтобы смотреть без ограничений.
Я - старший инженер по данным и тренер, техноэнтузиаст и отец. Уже более десяти лет я увлечён Data Engineering. Сначала я стал инженером по данным самоучкой, а затем возглавил команду инженеров по данным в крупной компании. Когда я понял, насколько велика потребность в обучении в этой сфере, я последовал за своей страстью и основал собственную Академию Data Engineering. С тех пор я помог более чем 2 000 студентам достичь своих целей.