Современным дата-платформам нужна гибкость озёр данных и надёжность хранилищ. Apache Iceberg сочетает оба подхода. В этом курсе вы разберётесь, как работает этот мощный формат открытых таблиц, изучите его архитектуру и научитесь использовать ключевые возможности: эволюцию схем, «путешествия во времени» и высокопроизводительную аналитику в Lakehouse-системах.
Курс построен на практических примерах из реальной инженерии данных. Вы развернёте локальную лабораторию с Docker, Spark и MinIO, создадите и будете управлять таблицами Iceberg. От записи данных и анализа метаданных до оптимизации запросов и перестройки партиций - вы получите опыт, необходимый для уверенной работы с Iceberg в production-среде.
По итогам курса вы не только поймёте, как Iceberg устроен изнутри, но и получите работающую среду, готовые нотбуки для проектов и глубокое понимание операций с таблицами, критически важных для архитектуры Lakehouse.
Почему Iceberg?
Iceberg решает давние проблемы больших данных: медленные запросы, сложные изменения схем и жёсткую связку хранилища с вычислительными системами. Вы узнаете, почему такие компании, как Netflix, Stripe и Apple, выбрали Iceberg для своих платформ, и как применить эти подходы у себя.
Что вы будете делать:
Построите локальный Lakehouse-лаб на базе Iceberg с помощью Docker Compose, Spark, REST-каталога и MinIO.
Создадите первую таблицу Iceberg на забавном датасете (например, с покемонами), определите схему, запишете данные через PySpark и изучите, как Iceberg ведёт учёт метаданных.
Освоите эволюцию схем: добавление, переименование и изменение типов колонок, а также продвинутые техники партиционирования.
Научитесь выполнять точечные операции (например, удаление строк) и использовать функцию «time travel» для анализа прошлых версий данных.
Погрузитесь в архитектуру Iceberg: паркет-файлы, манифесты, снапшоты и каталоги.
С помощью MinIO UI увидите, как физически хранятся данные и метаданные.
Запустите аналитические SQL-запросы на таблицах Iceberg через PySpark, используя привычные операции join, group by и filter.
Посмотреть больше
Этот материал находится в платной подписке. Оформи премиум подписку и смотри или слушай
Apache Iceberg Fundamentals,
а также все другие курсы, прямо сейчас!
Дэвид Регер - Cloud Data Engineer в компании MSG Systems, где он разрабатывает масштабируемые Lakehouse-платформы на базе Azure, Databricks и таких open-source технологий, как Apache Spark и Iceberg. Его опыт охватывает IoT, интеграцию данных и построение архитектур, что позволяет сочетать в работе глубокую теорию и проверенные практикой подходы. Дэвид увлечён тем, чтобы помогать инженерам осваивать современные инструменты работы с данными и дели
Команда внимательно читает ваши комментарии и оперативно на них реагирует. Вы можете спокойно оставлять запросы на обновления или задавать любые вопросы о курсе здесь.
Изучите основы Apache Kafka с нуля и научитесь создавать надёжные, масштабируемые системы обработки данных в реальном времени.В этом курсе вы познакомитесь с архитектурой Kafka, принципами работы продюсеров и консюмеров, обеспечением надёжности потоковой обработки, семантикой доставки сообщений, а также с инструментами из экосистемы Kafka - такими как Kafka Connect и Schema Registry.Apache Kafka лежит в основе систем обработки данных в реальном в
После построения пайплайнов данных, обработка данных - одна из важнейших задач в Data Engineering. Как инженер по данным, вы постоянно сталкиваетесь с необходимостью обработки, и критично уметь настраивать мощную и распределённую систему обработки. Один из самых полезных и широко используемых инструментов для этого - Apache Spark.
Apache Spark является ключевым навыком в области данных - вот как вы можете доказать, что владеете им!Изучите Apache Spark с нуля и продемонстрируйте свои знания с помощью сертификации Databricks Associate Developer для Apache Spark. Этот курс превратит вас в профессионала PySpark и подготовит к успешной сдаче популярной сертификации Databricks Spark.Присоединяйтесь ко мне для понятного и увлекательного изучения Spark и поднимите свою карьеру в о