
- Категории
- Источники
- Все курсы
- Разделы
- Книги
-
Современным дата-платформам нужна гибкость озёр данных и надёжность хранилищ. Apache Iceberg сочетает оба подхода. В этом курсе вы разберётесь, как работает этот мощный формат открытых таблиц, изучите его архитектуру и научитесь использовать ключевые возможности: эволюцию схем, «путешествия во времени» и высокопроизводительную аналитику в Lakehouse-системах.Курс построен на практических примерах из реальной инженерии данных. Вы развернёте локальн
Семантический поиск - один из самых практичных способов применения генеративного ИИ в реальных проектах по обработке данных. В этом курсе мы выходим за рамки базового знакомства с эмбеддингами (из курса The Hidden Foundation of GenAI) и начинаем использовать их на практике. Вы научитесь строить полноценный конвейер семантического поиска с нуля: от создания эмбеддингов и их хранения в векторной базе данных до выполнения запросов на естественном яз
Этот практический курс начинается с основ и шаг за шагом подводит вас к построению реальных сценариев оркестрации - от повторных попыток выполнения задач до интеграции со Spark и загрузки внешних данных.Переместить данные из точки A в точку B - лишь малая часть задачи. Важно, чтобы данные доставлялись точно, надёжно и автоматически - и здесь на помощь приходит Apache Airflow.Вы научитесь превращать хаотичные, вручную настроенные пайплайны в чётко
Программа предназначена для ИТ-аналитиков и системных аналитиков с опытом работы от 1-2 лет, стремящихся совершенствовать свои умения в системном анализе, выявлении и описании требований, а также проектировании информационных систем и приложений. Дополнительно курс может заинтересовать аналитиков данных, специалистов по данным и бизнес-аналитиков, имеющих более 3 лет профессионального опыта.Что вы получите от участия в курсе?Обучение дает системн
Научитесь строить потоковые пайплайны с Apache Kafka и Flink, создавать data lake'и на AWS, запускать ML-воркфлоу на Spark и интегрировать LLM-модели в продакшн-системы. Этот курс создан, чтобы запустить вашу карьеру и сделать вас востребованным дата-инженером завтрашнего дня.
Azure становится всё более популярной платформой для компаний, использующих экосистему Microsoft365. Если вы хотите прокачать свои навыки инженера данных, то умение работать с Azure и автоматизировать инфраструктуру с помощью Terraform - ключевые компетенции. Именно поэтому мы создали этот курс «Azure ETL с Terraform».На практическом проекте вы научитесь строить полноценное решение для обработки данных в Azure, объединяя возможности Terraform, Az
Инженерам данных часто нужно быстро настроить простой ETL-скрипт, который просто выполняет свою задачу. В этом проекте вы узнаете, как легко реализовать такой ETL на AWS: подключить живые данные из погодного API и записывать их во временную базу данных TDengine.
Big Data - это не просто модное слово, а реальное явление. Каждый день компании по всему миру собирают и обрабатывают огромные объёмы данных на высокой скорости. Эти данные часто неструктурированы и несогласованы, что делает их обработку с помощью традиционных методов практически невозможной.Одной из платформ, зарекомендовавших себя для работы с большими данными, является Apache Hadoop. Это фреймворк с открытым исходным кодом на Java, позволяющий
Обработка, хранение и визуализация данных временных рядов становится всё более важной задачей. От данных IoT и системных журналов до статистики производственных процессов - объём информации, требующей обработки, постоянно растёт.Системы хранения временных рядов, такие как InfluxDB, и инструменты визуализации, такие как Grafana, позволяют управлять данными и делать их доступными для анализа. В этом курсе вы научитесь строить полноценный пайплайн д
В этом практическом курсе вы научитесь строить полный пайплайн данных на платформе AWS - от получения данных из Twitter API до анализа, хранения и визуализации.Вы создадите собственный алгоритм машинного обучения и развернёте его на AWS с помощью Lambda. Также вы настроите базу данных Postgres с использованием Amazon RDS. Для визуализации результатов вы разработаете интерактивный дашборд на Streamlit и получите опыт его развертывания в контейнера