
- Категории
- Источники
- Все курсы
- Разделы
- Книги
-
Я - старший инженер по данным и тренер, техноэнтузиаст и отец. Уже более десяти лет я увлечён Data Engineering. Сначала я стал инженером по данным самоучкой, а затем возглавил команду инженеров по данным в крупной компании. Когда я понял, насколько велика потребность в обучении в этой сфере, я последовал за своей страстью и основал собственную Академию Data Engineering. С тех пор я помог более чем 2 000 студентам достичь своих целей.
Семантический поиск - один из самых практичных способов применения генеративного ИИ в реальных проектах по обработке данных. В этом курсе мы выходим за рамки базового знакомства с эмбеддингами (из курса The Hidden Foundation of GenAI) и начинаем использовать их на практике. Вы научитесь строить полноценный конвейер семантического поиска с нуля: от создания эмбеддингов и их хранения в векторной базе данных до выполнения запросов на естественном яз
Azure становится всё более популярной платформой для компаний, использующих экосистему Microsoft365. Если вы хотите прокачать свои навыки инженера данных, то умение работать с Azure и автоматизировать инфраструктуру с помощью Terraform - ключевые компетенции. Именно поэтому мы создали этот курс «Azure ETL с Terraform».На практическом проекте вы научитесь строить полноценное решение для обработки данных в Azure, объединяя возможности Terraform, Az
Инженерам данных часто нужно быстро настроить простой ETL-скрипт, который просто выполняет свою задачу. В этом проекте вы узнаете, как легко реализовать такой ETL на AWS: подключить живые данные из погодного API и записывать их во временную базу данных TDengine.
Обработка, хранение и визуализация данных временных рядов становится всё более важной задачей. От данных IoT и системных журналов до статистики производственных процессов - объём информации, требующей обработки, постоянно растёт.Системы хранения временных рядов, такие как InfluxDB, и инструменты визуализации, такие как Grafana, позволяют управлять данными и делать их доступными для анализа. В этом курсе вы научитесь строить полноценный пайплайн д
В этом практическом курсе вы научитесь строить полный пайплайн данных на платформе AWS - от получения данных из Twitter API до анализа, хранения и визуализации.Вы создадите собственный алгоритм машинного обучения и развернёте его на AWS с помощью Lambda. Также вы настроите базу данных Postgres с использованием Amazon RDS. Для визуализации результатов вы разработаете интерактивный дашборд на Streamlit и получите опыт его развертывания в контейнера
В роли инженера данных вы будете регулярно работать с аналитическими платформами, где компании хранят данные в Data Lakes и Data Warehouses для построения визуализаций и создания моделей машинного обучения.Современные хранилища данных, такие как AWS Redshift, Google BigQuery и Snowflake, позволяют загружать данные напрямую из файлов в Data Lake. Эта интеграция делает работу с хранилищами гибкой и удобной для аналитических задач.
Google Cloud Platform (GCP) - одна из самых популярных облачных платформ в мире, предоставляющая обширный набор инструментов и сервисов для построения, управления и оптимизации пайплайнов данных. GCP позволяет эффективно хранить, обрабатывать, анализировать и визуализировать данные, помогая инженерам данных создавать масштабируемые и высокопроизводительные решения.
Этот курс - идеальный старт для тех, кто хочет освоить облачные технологии и начать работать с Amazon Web Services (AWS), одной из самых популярных платформ для обработки данных. Курс особенно полезен для начинающих инженеров данных и тех, кто ищет первую работу в этой сфере.В рамках курса вы создадите полноценный end-to-end проект на основе данных из интернет-магазина. Шаг за шагом вы научитесь моделировать данные, строить пайплайны и работать с
Этот курс - полноценный проект с полным циклом обработки данных в реальном времени. Вы будете работать с данными интернет-магазина, включающими счета-фактуры для клиентов и товары из этих счетов. Цель курса - настроить потоковую обработку данных (инвойсов) по мере их поступления и визуализировать их в удобном интерфейсе.Вы будете использовать технологии FastAPI, Apache Kafka, Apache Spark, MongoDB и Streamlit - инструменты, с которыми вы уже знак
dbt (data build tool) - это инструмент трансформации данных с приоритетом SQL. Он позволяет просто и прозрачно преобразовывать, тестировать и документировать данные прямо внутри хранилища. Благодаря dbt, команды могут создавать надёжные наборы данных для аналитики, машинного обучения и бизнес-процессов - без необходимости выгружать данные наружу. Именно поэтому dbt становится ключевым инструментом в работе инженеров данных, и этот курс - идеальна