Главная страницаКатегория обработка и анализ данныхОсновы Apache Iceberg

Основы Apache Iceberg

Name: Основы Apache Iceberg
Price: 13 USD
Rating: 5 (1 reviews)

Apache Iceberg Fundamentals

David Reger

★5 (всего оценок - 1)

Продолжительность

0 ч 33 мин

Категория

Обработка и анализ данных

Количество уроков

12 Видео

Дата добавления

9 сент. 2025 г., 13:37

Язык

Английский

Дата обновления

30 апр. 2026 г., 00:07

Apache Iceberg стремительно стал стандартом для современных Lakehouse‑платформ. Чтобы уверенно работать с этим форматом, важно понимать не только команды, но и внутреннюю механику Iceberg.

Что даст вам этот курс

Курс помогает инженерам данных, аналитикам и архитекторам освоить Iceberg «на практике», а не только в теории. После обучения вы сможете уверенно применять Lakehouse‑подходы, строить надёжные пайплайны и оптимизировать вычисления в больших данных.

Ключевые навыки

понимание архитектуры Iceberg и принципов его работы;
умение проектировать и управлять таблицами в Lakehouse‑среде;
подготовка локальной лаборатории на базе Docker, Spark и MinIO;
работа с эволюцией схем, временем и безопасными изменениями данных;
исследование метаданных и оптимизация запросов;
глубокое понимание снапшотов, манифестов и операций каталога.

Почему именно Apache Iceberg

Iceberg — фундамент современного Lakehouse. Он решает проблемы, характерные для больших данных: сложность версионирования, медленные запросы и отсутствие гибкости при изменении схем.

Преимущества Iceberg для инженеров данных

чёткое разделение вычислений и хранения;
поддержка ACID‑операций;
эффективная работа с большими объёмами данных;
возможность безопасно менять структуру данных без остановки пайплайнов;
поддержка «time travel» для аналитики и отладки.

Именно поэтому Iceberg уже используют Netflix, Stripe, Apple, Adobe и десятки других компаний.

Практический опыт, который вы получите

Каждый модуль курса — это пошаговая практика. Вы создадите полноценную лабораторию и научитесь управлять Iceberg‑таблицами так, как это делается в production.

Развёртывание инфраструктуры

настройка Docker Compose;
развёртывание Spark и REST‑каталога;
работа с MinIO как S3‑совместимым хранилищем.

Создание и управление таблицами Iceberg

определите схему и запишите данные через PySpark;
разберётесь, как устроены метаданные, снапшоты и версии таблицы;
изучите структуры файлов: паркет, манифесты, манифест‑листы.

Эволюция схем и работа с данными

добавление и переименование колонок;
изменение типов полей;
перестройка и оптимизация партиционирования;
точечные операции: удаление, обновление, MERGE;
использование «time travel» для восстановления и анализа версий.

Аналитика на базе Iceberg

запуск SQL‑запросов в PySpark;
использование join, group by, filter и window‑функций;
изучение влияния структуры таблицы на производительность.

Что у вас будет после курса

полностью рабочая локальная Lakehouse‑среда;
набор готовых Jupyter‑ноутбуков для собственных проектов;
понимание того, как таблицы Iceberg работают «под капотом»;
опыт выполнения ключевых операций, используемых в реальных дата‑платформах.

Этот курс создан для тех, кто хочет уверенно применять Apache Iceberg в реальной инженерии данных — от экспериментов до production.

Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум

Урок 1. 00:01:07
Intro
Урок 2. 00:01:03
Goals
Урок 3. 00:04:10
Challenges
Урок 4. 00:01:42
Iceberg & Lakehouses
Урок 5. 00:02:02
Architecture Deep Dive
Урок 6. 00:02:45
Iceberg Features
Урок 7. 00:02:51
Architecture & Summary
Урок 8. 00:03:31
Setup & Docker
Урок 9. 00:02:31
Spark Iceberg Config
Урок 10. 00:01:32
Write data to Iceberg
Урок 11. 00:08:41
Inspect metadata & schema eval
Урок 12. 00:01:37
Inspect data on MinIO & Outro

https://github.com/team-data-science/iceberg

Автор - David Reger

David Reger

Дэвид Регер - Cloud Data Engineer в компании MSG Systems, где он разрабатывает масштабируемые Lakehouse-платформы на базе Azure, Databricks и таких open-source технологий, как Apache Spark и Iceberg. Его опыт охватывает IoT, интеграцию данных и построение архитектур, что позволяет сочетать в работе глубокую теорию и проверенные практикой подходы. Дэвид увлечён тем, чтобы помогать инженерам осваивать современные инструменты работы с данными и дели

Комментарии