Apache Iceberg стремительно стал стандартом для современных Lakehouse‑платформ. Чтобы уверенно работать с этим форматом, важно понимать не только команды, но и внутреннюю механику Iceberg.
Что даст вам этот курс
Курс помогает инженерам данных, аналитикам и архитекторам освоить Iceberg «на практике», а не только в теории. После обучения вы сможете уверенно применять Lakehouse‑подходы, строить надёжные пайплайны и оптимизировать вычисления в больших данных.
Ключевые навыки
понимание архитектуры Iceberg и принципов его работы;
умение проектировать и управлять таблицами в Lakehouse‑среде;
подготовка локальной лаборатории на базе Docker, Spark и MinIO;
работа с эволюцией схем, временем и безопасными изменениями данных;
исследование метаданных и оптимизация запросов;
глубокое понимание снапшотов, манифестов и операций каталога.
Почему именно Apache Iceberg
Iceberg — фундамент современного Lakehouse. Он решает проблемы, характерные для больших данных: сложность версионирования, медленные запросы и отсутствие гибкости при изменении схем.
Преимущества Iceberg для инженеров данных
чёткое разделение вычислений и хранения;
поддержка ACID‑операций;
эффективная работа с большими объёмами данных;
возможность безопасно менять структуру данных без остановки пайплайнов;
поддержка «time travel» для аналитики и отладки.
Именно поэтому Iceberg уже используют Netflix, Stripe, Apple, Adobe и десятки других компаний.
Практический опыт, который вы получите
Каждый модуль курса — это пошаговая практика. Вы создадите полноценную лабораторию и научитесь управлять Iceberg‑таблицами так, как это делается в production.
Развёртывание инфраструктуры
настройка Docker Compose;
развёртывание Spark и REST‑каталога;
работа с MinIO как S3‑совместимым хранилищем.
Создание и управление таблицами Iceberg
определите схему и запишите данные через PySpark;
разберётесь, как устроены метаданные, снапшоты и версии таблицы;
изучите структуры файлов: паркет, манифесты, манифест‑листы.
Эволюция схем и работа с данными
добавление и переименование колонок;
изменение типов полей;
перестройка и оптимизация партиционирования;
точечные операции: удаление, обновление, MERGE;
использование «time travel» для восстановления и анализа версий.
Аналитика на базе Iceberg
запуск SQL‑запросов в PySpark;
использование join, group by, filter и window‑функций;
изучение влияния структуры таблицы на производительность.
Что у вас будет после курса
полностью рабочая локальная Lakehouse‑среда;
набор готовых Jupyter‑ноутбуков для собственных проектов;
понимание того, как таблицы Iceberg работают «под капотом»;
опыт выполнения ключевых операций, используемых в реальных дата‑платформах.
Этот курс создан для тех, кто хочет уверенно применять Apache Iceberg в реальной инженерии данных — от экспериментов до production.
Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум
Ограничение времени просмотра
Вы можете просматривать пробный урок только 10 минут. Получите полный доступ, чтобы смотреть без ограничений.
Дэвид Регер - Cloud Data Engineer в компании MSG Systems, где он разрабатывает масштабируемые Lakehouse-платформы на базе Azure, Databricks и таких open-source технологий, как Apache Spark и Iceberg. Его опыт охватывает IoT, интеграцию данных и построение архитектур, что позволяет сочетать в работе глубокую теорию и проверенные практикой подходы. Дэвид увлечён тем, чтобы помогать инженерам осваивать современные инструменты работы с данными и дели