Современным дата-платформам нужна гибкость озёр данных и надёжность хранилищ. Apache Iceberg сочетает оба подхода. В этом курсе вы разберётесь, как работает этот мощный формат открытых таблиц, изучите его архитектуру и научитесь использовать ключевые возможности: эволюцию схем, «путешествия во времени» и высокопроизводительную аналитику в Lakehouse-системах.
Курс построен на практических примерах из реальной инженерии данных. Вы развернёте локальную лабораторию с Docker, Spark и MinIO, создадите и будете управлять таблицами Iceberg. От записи данных и анализа метаданных до оптимизации запросов и перестройки партиций - вы получите опыт, необходимый для уверенной работы с Iceberg в production-среде.
По итогам курса вы не только поймёте, как Iceberg устроен изнутри, но и получите работающую среду, готовые нотбуки для проектов и глубокое понимание операций с таблицами, критически важных для архитектуры Lakehouse.
Почему Iceberg?
Iceberg решает давние проблемы больших данных: медленные запросы, сложные изменения схем и жёсткую связку хранилища с вычислительными системами. Вы узнаете, почему такие компании, как Netflix, Stripe и Apple, выбрали Iceberg для своих платформ, и как применить эти подходы у себя.
Что вы будете делать:
Построите локальный Lakehouse-лаб на базе Iceberg с помощью Docker Compose, Spark, REST-каталога и MinIO.
Создадите первую таблицу Iceberg на забавном датасете (например, с покемонами), определите схему, запишете данные через PySpark и изучите, как Iceberg ведёт учёт метаданных.
Освоите эволюцию схем: добавление, переименование и изменение типов колонок, а также продвинутые техники партиционирования.
Научитесь выполнять точечные операции (например, удаление строк) и использовать функцию «time travel» для анализа прошлых версий данных.
Погрузитесь в архитектуру Iceberg: паркет-файлы, манифесты, снапшоты и каталоги.
С помощью MinIO UI увидите, как физически хранятся данные и метаданные.
Запустите аналитические SQL-запросы на таблицах Iceberg через PySpark, используя привычные операции join, group by и filter.
Посмотреть больше
Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум
Ограничение времени просмотра
Вы можете просматривать пробный урок только 10 минут. Получите полный доступ, чтобы смотреть без ограничений.
Дэвид Регер - Cloud Data Engineer в компании MSG Systems, где он разрабатывает масштабируемые Lakehouse-платформы на базе Azure, Databricks и таких open-source технологий, как Apache Spark и Iceberg. Его опыт охватывает IoT, интеграцию данных и построение архитектур, что позволяет сочетать в работе глубокую теорию и проверенные практикой подходы. Дэвид увлечён тем, чтобы помогать инженерам осваивать современные инструменты работы с данными и дели
Команда внимательно читает ваши комментарии и оперативно на них реагирует. Вы можете спокойно оставлять запросы на обновления или задавать любые вопросы о курсе здесь.
Изучите основы Apache Kafka с нуля и научитесь создавать надёжные, масштабируемые системы обработки данных в реальном времени.В этом курсе вы познакомитесь с архитектурой Kafka, принципами работы продюсеров и консюмеров, обеспечением надёжности потоковой обработки, семантикой доставки сообщений, а также с инструментами из экосистемы Kafka - такими как Kafka Connect и Schema Registry.Apache Kafka лежит в основе систем обработки данных в реальном в
После построения пайплайнов данных, обработка данных - одна из важнейших задач в Data Engineering. Как инженер по данным, вы постоянно сталкиваетесь с необходимостью обработки, и критично уметь настраивать мощную и распределённую систему обработки. Один из самых полезных и широко используемых инструментов для этого - Apache Spark.
Apache Spark является ключевым навыком в области данных - вот как вы можете доказать, что владеете им!Изучите Apache Spark с нуля и продемонстрируйте свои знания с помощью сертификации Databricks Associate Developer для Apache Spark. Этот курс превратит вас в профессионала PySpark и подготовит к успешной сдаче популярной сертификации Databricks Spark.Присоединяйтесь ко мне для понятного и увлекательного изучения Spark и поднимите свою карьеру в о