Дата-пайплайны - ключевой элемент любой платформы Data Science. Без них невозможна ни загрузка данных, ни запуск моделей машинного обучения. Этот практический курс продолжительностью 170 минут научит вас создавать потоковые (streaming), пакетные (batch) и машинные (ML) пайплайны, используя проверенные шаблоны и примеры для популярных облачных платформ.
Базовый модуль
Основы платформ и пайплайнов
Вы познакомитесь с архитектурой платформ и разными типами пайплайнов. Узнаете, чем они отличаются, как работают, как выглядит пайплайн машинного обучения, и как объединять их в рамках одной системы.
Архитектура платформы и сквозной пайплайн (End-to-End)
Поймёте, как устроена типовая архитектура платформы: соединение, буферизация, обработка, хранение и визуализация данных. На примере сквозного пайплайна разберётесь, как применять эту структуру в своей работе.
Push- и Pull-пайплайны
Разберётесь, в чём разница между push- и pull-моделью передачи данных - отправка против выборки. Включены наглядные примеры и схемы.
Batch и Streaming пайплайны
Один из важнейших блоков для инженера по данным. Вы научитесь различать и применять пакетную и потоковую обработку в зависимости от сценария.
Визуализация потоков данных
Поймёте, как визуализировать обработку и хранение данных - даже если у вас нет прямого доступа к ним. Пример с Apache Spark поможет закрепить материал.
Lambda-архитектура
Узнаете, как объединяются batch и stream пайплайны в рамках одной платформы - особенно важно для ML, где обучение идёт на batch-данных, а применение - через стриминг.
Примеры платформ
Вы изучите шаблоны архитектур на AWS, GCP, Azure и Hadoop, где увидите, как вписываются инструменты вроде Lambda, API Gateway и DynamoDB в реальную инфраструктуру.
Продвинутый модуль
Модели обработки: событийная, пакетная и потоковая
Разберётесь в различиях между event-driven, batch, micro-batching и streaming. Узнаете, как выбирать подходящий тип обработки под задачи: аналитика, транзакции, reverse ETL и другие.
Целевое проектирование и повтор платформенной схемы
Вы вернётесь к платформенной схеме и научитесь сопоставлять цели бизнеса и типы данных с архитектурными решениями. Вместо выбора инструментов «на глаз» вы научитесь проектировать систему от задачи.
Современные архитектуры: Lakehouse и Medallion
Поймёте, как Lakehouse объединяет хранение файлов и транзакционные таблицы, и как слои bronze-silver-gold в архитектуре Medallion помогают поддерживать порядок и масштабируемость.
Машинное обучение и генеративный ИИ (GenAI)
Узнаете, как пайплайны машинного обучения интегрируются в платформу: где происходит обучение, инференс и деплой. Познакомитесь с концепцией semantic search и Retrieval-Augmented Generation (RAG) - основой современных ИИ-приложений.
Тестирование платформы
Краткий, но важный модуль: стратегии тестирования пайплайнов на всех этапах - от загрузки и обработки до трансформации данных.
Этот курс даст вам целостное понимание платформ и пайплайнов и научит строить эффективную архитектуру, применимую в реальных облачных решениях. Идеально подойдёт как для начинающих инженеров, так и для тех, кто хочет выйти на следующий уровень.