dbt (data build tool) - это инструмент трансформации данных с приоритетом SQL. Он позволяет просто и прозрачно преобразовывать, тестировать и документировать данные прямо внутри хранилища. Благодаря dbt, команды могут создавать надёжные наборы данных для аналитики, машинного обучения и бизнес-процессов - без необходимости выгружать данные наружу. Именно поэтому dbt становится ключевым инструментом в работе инженеров данных, и этот курс - идеальная отправная точка для его освоения.
Введение в dbt
Перед практикой вы узнаете:
В чём разница между ETL и ELT,
Какие вызовы стоят перед современными пайплайнами,
Чем dbt Core и dbt Cloud отличаются и каковы их ключевые преимущества.
Настройка: Snowflake, dbt Core и GitHub
Для практики вы:
создадите репозиторий на GitHub,
заведёте аккаунт в dbt Cloud и настроите хранилище данных в Snowflake,
выполните базовую настройку проекта в dbt и определите структуру модели (SQL или Python-файл).
Построение пайплайнов данных в dbt
Вы создадите цепочку моделей (pipelines), используя e-commerce-датасет. Вы будете использовать dbt Core, dbt Cloud и Snowflake для пошагового преобразования данных.
Материализации в dbt
После построения моделей вы научитесь сохранять результаты трансформаций:
в таблицы,
представления (views),
инкрементальные или эфемерные модели.
Вы также узнаете, как работают внешние и внутренние источники dbt и зависимости между ними.
Тестирование моделей dbt
Вы научитесь тестировать модели - это ключевая часть надежной работы с данными:
Схемные (generic) и пользовательские (bespoke) тесты,
Проверка качества и консистентности данных на всех этапах пайплайна.
Деплой и расписание запуска моделей
Теперь, когда модели работают локально, вы научитесь:
делиться ими с командой,
запускать их по расписанию,
обновлять модели автоматически.
Вы изучите практики деплоя и планирования в dbt Cloud.
Расширенные возможности dbt
В завершении курса:
настроите CI/CD-процессы прямо в dbt Cloud,
сгенерируете полноценную документацию проекта и поймёте, как использовать её в команде,
узнаете о лучших практиках работы с dbt в продакшене.
Что входит в курс
Репозиторий с исходным кодом (GitHub)
E-commerce-датасет
Пошаговые видеоуроки
Подборка полезных ссылок и дополнительных материалов
Требования
Базовые знания реляционных баз данных
Умение работать с SQL
Рекомендуется: базовый опыт с Git и облачными платформами (Snowflake, dbt Cloud)
Посмотреть больше
Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум
Урок 1.
00:02:24
Introduction
Урок 2.
00:05:43
Modern data experience
Урок 3.
00:04:39
Introduction to dbt
Урок 4.
00:04:51
Goals of this course
Урок 5.
00:07:30
Snowflake preparation
Урок 6.
00:09:36
Loading data into Snowflake
Урок 7.
00:03:33
Setup dbt Core
Урок 8.
00:06:17
Preparing the GitHub repository
Урок 9.
00:05:49
dbt models & materialization explained
Урок 10.
00:05:29
Creating your first sql model
Урок 11.
00:04:36
Working with custom schemas
Урок 12.
00:01:56
Creating your first python model
Урок 13.
00:04:04
dbt sources
Урок 14.
00:04:21
Configuring sources
Урок 15.
00:03:20
Working with seed files
Урок 16.
00:03:26
Generic tests
Урок 17.
00:02:50
Tests with Great Expectations
Урок 18.
00:07:26
Writing custom generic tests
Урок 19.
00:05:15
dbt cloud setup
Урок 20.
00:10:53
creating dbt jobs
Урок 21.
00:07:39
CI/CD automation with dbt cloud and GitHub
Урок 22.
00:01:18
Documenation in dbt
Урок 23.
00:00:00
Conclusion
Автор - Andreas Kretz
Andreas Kretz
Я - старший инженер по данным и тренер, техноэнтузиаст и отец. Уже более десяти лет я увлечён Data Engineering. Сначала я стал инженером по данным самоучкой, а затем возглавил команду инженеров по данным в крупной компании. Когда я понял, насколько велика потребность в обучении в этой сфере, я последовал за своей страстью и основал собственную Академию Data Engineering. С тех пор я помог более чем 2 000 студентам достичь своих целей.
Are you planning to add the rest of the videos for this course? I think DBT for Data Engineers is the last part of Fundamental Tools
Video Time Available: 25.25h
4.1Streaming with Kafka, Spark & MongoDB
4.2Data Engineering on AWS
4.3Data Engineering on Azure
4.4Data Engineering on GCP
4.5Modern Data Warehouses & Data Lakes
4.6Machine Learning & Containerization on AWS
4.7Storing & Visualizing Time Series Data
4.8Contact tracing with Elasticsearch
4.9Data Engineering on Hadoop
4.10Dockerized ETL With AWS, TDengine & Grafana
4.11Azure Data Pipelines with Terraform (NEW: Part 2 now available!)
4.12GenAI Platform with RAG (coming soon)
Thanks
Команда внимательно читает ваши комментарии и оперативно на них реагирует. Вы можете спокойно оставлять запросы на обновления или задавать любые вопросы о курсе здесь.
Data Bootcamp: Преобразуйте свои данные с помощью dbt™
The Data Bootcamp: Transform your Data using dbt™
Вы ищете передовой способ извлечения и преобразования данных? Хотите узнать больше о dbt™ и о том, как его использовать? В этом курсе вы узнаете все о dbt™, от настройки облака dbt™, подключения его к Snowflake или к выбранному вами хранилищу, до разработки моделей, создания исходников, проведения тестирования, работы с документацией и многому другому. Этот курс предназначен для начинающих, мы рассмотрим реалистичный проек
Are you planning to add the rest of the videos for this course? I think DBT for Data Engineers is the last part of Fundamental Tools
Video Time Available: 25.25h
4.1Streaming with Kafka, Spark & MongoDB
4.2Data Engineering on AWS
4.3Data Engineering on Azure
4.4Data Engineering on GCP
4.5Modern Data Warehouses & Data Lakes
4.6Machine Learning & Containerization on AWS
4.7Storing & Visualizing Time Series Data
4.8Contact tracing with Elasticsearch
4.9Data Engineering on Hadoop
4.10Dockerized ETL With AWS, TDengine & Grafana
4.11Azure Data Pipelines with Terraform (NEW: Part 2 now available!)
4.12GenAI Platform with RAG (coming soon)
Thanks