

Andreas Kretz
Я - старший инженер по данным и тренер, техноэнтузиаст и отец. Уже более десяти лет я увлечён Data Engineering. Сначала я стал инженером по данным самоучкой, а затем возглавил команду инженеров по данным в крупной компании. Когда я понял, насколько велика потребность в обучении в этой сфере, я последовал за своей страстью и основал собственную Академию Data Engineering. С тех пор я помог более чем 2 000 студентам достичь своих целей.
Популярное в andreas kretz
Курсы от Andreas Kretz


Создание локальной системы RAG на основе LlamaIndex и Ollama
Retrieval-Augmented Generation (RAG) - это следующий практический шаг после семантического поиска и индексации. В этом курсе вы создадите полноценный локальный RAG-конвейер, который обрабатывает PDF-файлы, разбивает тексты на фрагменты, сохраняет векторы в Elasticsearch, извлекает релевантный контекст и генерирует обоснованные ответы с помощью модели Mistral, запущенной локально через Ollama.Мы пройдём путь от начала до конца на конкретном сценар


Скрытый фундамент генеративного ИИ
Генеративный ИИ сегодня повсюду, но лишь немногие понимают фундаментальные концепции, на которых он держится. «Скрытый фундамент GenAI» - это отправная точка для тех, кто хочет по-настоящему разобраться, что стоит за LLM, векторным поиском и семантическим пониманием. Курс специально создан для инженеров данных и фокусируется на эмбеддингах - одном из важнейших (и самых неправильно трактуемых) строительных блоков любой GenAI-системы.Вместо перегру


Семантическая индексация и поиск логов
Семантический поиск - один из самых практичных способов применения генеративного ИИ в реальных проектах по обработке данных. В этом курсе мы выходим за рамки базового знакомства с эмбеддингами (из курса The Hidden Foundation of GenAI) и начинаем использовать их на практике. Вы научитесь строить полноценный конвейер семантического поиска с нуля: от создания эмбеддингов и их хранения в векторной базе данных до выполнения запросов на естественном яз


Azure Data Pipelines с Terraform
Azure становится всё более популярной платформой для компаний, использующих экосистему Microsoft365. Если вы хотите прокачать свои навыки инженера данных, то умение работать с Azure и автоматизировать инфраструктуру с помощью Terraform - ключевые компетенции. Именно поэтому мы создали этот курс «Azure ETL с Terraform».На практическом проекте вы научитесь строить полноценное решение для обработки данных в Azure, объединяя возможности Terraform, Az


Контейнеризация ETL c AWS, TDengine и Grafana
Инженерам данных часто нужно быстро настроить простой ETL-скрипт, который просто выполняет свою задачу. В этом проекте вы узнаете, как легко реализовать такой ETL на AWS: подключить живые данные из погодного API и записывать их во временную базу данных TDengine.


Contact Tracing с использованием Elasticsearch
В этом увлекательном инженерном проекте вы научитесь отслеживать перемещения пользователей по их сканированиям с телефона. Цель проекта - использовать Elasticsearch как поисковую систему для анализа набора данных, в котором 100,000 пользователей посещают магазины и делают 1,000,000 сканирований.


Работа с данными временных рядов: хранение и визуализация
Обработка, хранение и визуализация данных временных рядов становится всё более важной задачей. От данных IoT и системных журналов до статистики производственных процессов - объём информации, требующей обработки, постоянно растёт.Системы хранения временных рядов, такие как InfluxDB, и инструменты визуализации, такие как Grafana, позволяют управлять данными и делать их доступными для анализа. В этом курсе вы научитесь строить полноценный пайплайн д


Машинное обучение и контейнеры на AWS
В этом практическом курсе вы научитесь строить полный пайплайн данных на платформе AWS - от получения данных из Twitter API до анализа, хранения и визуализации.Вы создадите собственный алгоритм машинного обучения и развернёте его на AWS с помощью Lambda. Также вы настроите базу данных Postgres с использованием Amazon RDS. Для визуализации результатов вы разработаете интерактивный дашборд на Streamlit и получите опыт его развертывания в контейнера


Современные хранилища данных и Data Lakes
В роли инженера данных вы будете регулярно работать с аналитическими платформами, где компании хранят данные в Data Lakes и Data Warehouses для построения визуализаций и создания моделей машинного обучения.Современные хранилища данных, такие как AWS Redshift, Google BigQuery и Snowflake, позволяют загружать данные напрямую из файлов в Data Lake. Эта интеграция делает работу с хранилищами гибкой и удобной для аналитических задач.


Инженерия данных на GCP
Google Cloud Platform (GCP) - одна из самых популярных облачных платформ в мире, предоставляющая обширный набор инструментов и сервисов для построения, управления и оптимизации пайплайнов данных. GCP позволяет эффективно хранить, обрабатывать, анализировать и визуализировать данные, помогая инженерам данных создавать масштабируемые и высокопроизводительные решения.