CourseHunter
  • Категории
  • Источники
  • Все курсы
  • Разделы
  • Книги
English
Русский
Українська
Голубая
Фиолетовая
Cветлая
Терминал
Norton
Войти
🌸 Май уже здесь — скидки 50% до конца выходных, и сегодня тоже ☀️
Главная страницаКатегория другое (ии)Квантизация и ускоренный инференс

Квантизация и ускоренный инференс

Quantization and Fast Inference

Vivek Kalyanarangan logo
Vivek Kalyanarangan
★5 (всего оценок - 1)
Квантизация и ускоренный инференс
Начать Сейчас
Категория
Другое (ИИ)
Дата добавления
14 мая 2026 г., 02:10
Язык
Английский

«Квантизация и ускоренный инференс» — практическое и прикладное руководство по оптимизации AI‑моделей для более быстрого, лёгкого и экономичного инференса без усложнения архитектуры. Материал помогает понять, как снижение числовой точности вычислений ускоряет работу моделей, уменьшает потребление памяти и снижает стоимость инфраструктуры при минимальной потере качества.

Что вы узнаете из курса

Материал выстроен в виде полного pipeline-а оптимизации — от базовой теории до production‑готовых решений. Книга объясняет ключевые концепции квантизации и демонстрирует, как применять их в реальных ML‑проектах.

Ключевые темы

  • Post-training quantization (PTQ) — снижение точности без дообучения;
  • Quantization-aware training (QAT) — подготовка моделей к квантизации во время обучения;
  • Fake quantization и использование straight-through estimators;
  • Работа с LLM: выбросы активаций, оптимизация KV‑cache, форматы ниже 8 бит (NF4, FP4);
  • Построение корректного quantization mapping и анализ trade‑off‑ов.

Подход и структура обучения

Книга ориентирована на инженеров и исследователей, работающих с Python и современными ML‑фреймворками. Материал тщательно структурирован и подойдёт как для внедрения квантизации с нуля, так и для оптимизации существующих моделей.

Практическая ориентация

  • framework‑agnostic методики и рекомендации;
  • кросс‑фреймворк тестирование и сравнение стратегий;
  • схемы принятия решений для выбора уровня квантизации;
  • чек-листы подготовки моделей к деплою;
  • реальные примеры оптимизации больших моделей.

Кому подходит

Материал будет особенно полезен ML‑инженерам, researchers и практикам, стремящимся сократить стоимость инференса, ускорить производство ML‑фич и внедрять современные методы оптимизации моделей без переписывания архитектуры.

Автор - Vivek Kalyanarangan

Vivek Kalyanarangan logo

Vivek Kalyanarangan

Вивек Кальянаранган — AI-лидер, архитектор и исследователь с более чем 12-летним опытом в области Generative AI, Computer Vision и NLP. Он специализируется на создании и масштабировании AI-решений для сфер BFSI и FinTech, руководя командами машинного обучения и внедряя высоконагруженные enterprise-системы для KYC, antifraud и compliance.В настоящее время Вивек возглавляет команду из 20 ML-инженеров, разрабатывающую корпоративные ML API с производ

LinkedIn
Автор

Другие материалы в этой категории

Основы больших языковых моделей (LLM)

Основы больших языковых моделей (LLM)

RAG-боты и агенты LLM (большие языковые модели)

RAG-боты и агенты LLM (большие языковые модели)

LLM Driven Development. Разработка и эксплуатация AI

LLM Driven Development. Разработка и эксплуатация AI

Создание LLM для продакшена

Создание LLM для продакшена

Справочник инженера LLM

Справочник инженера LLM

Комментарии
 logo
    КонтактыРаспространенные вопросыПлейлистыПриватностьУсловия