Главная страница Категория обработка и анализ данных Инженерия данных с использованием Databricks

Инженерия данных с использованием Databricks

Name: Инженерия данных с использованием Databricks
Price: 13 USD
Rating: 5 (2 reviews)

Data Engineering on Databricks

Andreas Kretz

Начать Сейчас

Продолжительность

1 ч 27 мин

Категория

Обработка и анализ данных

Количество уроков

19 Видео

Дата добавления

23 мая 2025 г., 20:24

Язык

Английский

Databricks - одна из самых популярных платформ для обработки данных с использованием Apache Spark и создания современных хранилищ данных (Lakehouse). В этом курсе вы изучите всё, что нужно для уверенного старта работы с Databricks: от основ платформы до создания собственных пайплайнов и подключения BI-инструментов.

Вы узнаете, как работает Databricks, зачем его использовать, создадите свои ноутбуки, настроите кластер вычислений и познакомитесь с Databricks SQL Warehouse.

1. Установка и подготовка данных

Прежде чем приступить к практике, вы настроите Databricks на AWS, создадите S3-бакет для хранения данных и рабочее пространство. Также вы разберёте шаблон AWS CloudFormation, который использует Databricks, чтобы понимать, как инфраструктура разворачивается автоматически.

Проведёте обзор созданного кластера и ознакомитесь с датасетом, на основе которого будете строить свой ETL-процесс.

2. Практика: обработка данных

Вы изучите два способа загрузки данных в Databricks: напрямую или через S3 с последующей интеграцией. Также научитесь создавать репозитории кода. Это можно сделать двумя способами: подключить GitHub-репозиторий или создать репозиторий вручную прямо в Databricks.

Во время проекта вы выполните две ключевые задачи:

ETL-обработка данных: запустите пайплайн, выполните преобразование, создадите таблицы и сохраните их в Databricks.
Визуализация данных: в отдельном нотбуке выполните анализ с помощью Spark SQL и создадите визуализации.

Вы также узнаете, как хранятся данные внутри Databricks.

3. Хранилище данных и внешние интеграции

В завершение вы подключите Power BI к Databricks и попробуете оба способа интеграции: через вычислительный кластер и через SQL Warehouse. Таким образом, вы научитесь интегрировать Databricks с внешними аналитическими инструментами.

Рекомендации перед началом

Перед тем как начать этот курс, рекомендуется пройти курс "Основы Apache Spark". С этими базовыми знаниями вы сможете эффективно работать в Databricks.

Требования:

Аккаунт AWS
Аккаунт Databricks
Знания основ Spark (достаточно уровня курса «Spark Fundamentals»)
Затраты на AWS минимальны (особенно в рамках бесплатного уровня)

Посмотреть больше

Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум

Урок 1. 00:02:56

Introduction
Урок 2. 00:04:05

Why Databricks
Урок 3. 00:06:51

Pricing explained
Урок 4. 00:07:09

Create Databricks Account & Workspace
Урок 5. 00:04:03

AWS Resources created by Databricks
Урок 6. 00:06:05

Intro Databricks UI & Compute Cluster
Урок 7. 00:02:46

The Dataset
Урок 8. 00:02:16

Goals ETL & Visualization pipeline explained
Урок 9. 00:04:44

Import Data in Databricks UI
Урок 10. 00:02:09

Databricks Data in S3
Урок 11. 00:04:35

Creating code Repos
Урок 12. 00:09:26

Running our ETL job
Урок 13. 00:02:16

Explore Data Tables in AWS folders
Урок 14. 00:05:55

Explore data with databricks notebook 1
Урок 15. 00:06:45

Explore data with databricks notebook 2
Урок 16. 00:04:11

Compute Cluster vs Databricks SQL Warehouse
Урок 17. 00:04:21

Power BI queries through computer cluster
Урок 18. 00:04:44

Power BI queries through Databricks SQL Warehouse
Урок 19. 00:02:12

Conclusion

Link to the dataset: https://www.kaggle.com/datasets/carrie1/ecommerce-data

Link to the GitHub repo: https://github.com/team-data-science/databricks

Автор - Andreas Kretz

Andreas Kretz

Я - старший инженер по данным и тренер, техноэнтузиаст и отец. Уже более десяти лет я увлечён Data Engineering. Сначала я стал инженером по данным самоучкой, а затем возглавил команду инженеров по данным в крупной компании. Когда я понял, насколько велика потребность в обучении в этой сфере, я последовал за своей страстью и основал собственную Академию Data Engineering. С тех пор я помог более чем 2 000 студентам достичь своих целей.

+21

Категории

Комментарии

Команда внимательно читает ваши комментарии и оперативно на них реагирует. Вы можете спокойно оставлять запросы на обновления или задавать любые вопросы о курсе здесь.

Другие материалы в этой категории

Изображение курса Apache Spark с Databricks

udemy

13 авг. 2020 г., 16:54

Другое (Tools)

Apache Spark с Databricks

Apache Spark with Databricks

Курс по внедрению Big Data Apache Spark на Databricks с использованием облачной службы Microsoft - Azure. В этом курсе вы изучите основы создания заданий Spark, загрузки данных и работы с данными. Вы также узнаете, как запускать алгоритмы машинного обучения и работать с потоковыми данными.

2 ч 58 мин

Английский

Посмотреть

-5

Andreas Kretz

23 мая 2025 г., 19:42

Обработка и анализ данных

Изучаем Apache Spark

Learning Apache Spark

После построения пайплайнов данных, обработка данных - одна из важнейших задач в Data Engineering. Как инженер по данным, вы постоянно сталкиваетесь с необходимостью обработки, и критично уметь настраивать мощную и распределённую систему обработки. Один из самых полезных и широко используемых инструментов для этого - Apache Spark.

1 ч 44 мин

Английский

Посмотреть

Изображение курса Инженерия данных на AWS

Andreas Kretz

29 мая 2025 г., 20:35

AWS Обработка и анализ данных

Инженерия данных на AWS

Data Engineering on AWS

Этот курс - идеальный старт для тех, кто хочет освоить облачные технологии и начать работать с Amazon Web Services (AWS), одной из самых популярных платформ для обработки данных. Курс особенно полезен для начинающих инженеров данных и тех, кто ищет первую работу в этой сфере.В рамках курса вы создадите полноценный end-to-end проект на основе данных из интернет-магазина. Шаг за шагом вы научитесь моделировать данные, строить пайплайны и работать с

4 ч 46 мин

Английский

Посмотреть

Инженерия данных с использованием Databricks

Ограничение времени просмотра

Автор - Andreas Kretz

Andreas Kretz

Обработка и анализ данных

Другие материалы в этой категории

Apache Spark с Databricks

Изучаем Apache Spark

Инженерия данных на AWS