Семантический поиск - один из самых практичных способов применения генеративного ИИ в реальных проектах по обработке данных. В этом курсе мы выходим за рамки базового знакомства с эмбеддингами (из курса The Hidden Foundation of GenAI) и начинаем использовать их на практике. Вы научитесь строить полноценный конвейер семантического поиска с нуля: от создания эмбеддингов и их хранения в векторной базе данных до выполнения запросов на естественном языке.
Курс построен вокруг реального проекта по наблюдаемости данных. Вы создадите пайплайн, который собирает логи, обрабатывает их с помощью FastAPI и сохраняет эмбеддинги в qdrant - высокопроизводительном векторном хранилище. Затем вы разработаете дашборд на Streamlit, позволяющий искать по логам не по ключевым словам, а по смыслу, сравнивая результаты с традиционными SQL-запросами в DuckDB.
Ключевые шаги курса:
От эмбеддингов к поиску: повторим основы эмбеддингов и разберём, как именно они обеспечивают работу семантического поиска.
Построение пайплайна: реализация API на FastAPI для обработки логов и генерации эмбеддингов.
Работа с qdrant: коллекции, точки, поиск по косинусному сходству и оптимизация структуры эмбеддингов.
Интерфейс Streamlit: создание удобного поиска и сравнение семантического подхода с классическим SQL.
Повышение точности: методы оптимизации эмбеддингов, формулировки запросов и настройка поиска.
Запуск в Docker: развертывание всего стека (FastAPI, qdrant, Streamlit, DuckDB) через Docker Compose.
Бонус: использование DuckDB для аналитики - реализация WAL, работа с данными в Docker и сравнение возможностей SQL и векторного поиска.
По завершении курса вы будете не только понимать механику семантического поиска, но и иметь готовый рабочий проект, который можно адаптировать для собственных решений на базе ИИ.
Посмотреть больше
Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум
Ограничение времени просмотра
Вы можете просматривать пробный урок только 10 минут. Получите полный доступ, чтобы смотреть без ограничений.
Я - старший инженер по данным и тренер, техноэнтузиаст и отец. Уже более десяти лет я увлечён Data Engineering. Сначала я стал инженером по данным самоучкой, а затем возглавил команду инженеров по данным в крупной компании. Когда я понял, насколько велика потребность в обучении в этой сфере, я последовал за своей страстью и основал собственную Академию Data Engineering. С тех пор я помог более чем 2 000 студентам достичь своих целей.