Эта книга — практическое руководство по созданию собственной модели DeepSeek с нуля и пониманию того, какие инженерные и алгоритмические решения сделали её одной из самых эффективных открытых LLM. Когда DeepSeek громко заявил о себе в начале 2025 года, он задал новый стандарт: выдающаяся производительность при существенно более низких затратах на обучение и инференс. В основе этого успеха — продуманное сочетание архитектурных инноваций и оптимизационных стратегий, таких как Mixture of Experts, латентное внимание, Multi-Token Prediction, дистилляция моделей и эффективная параллелизация.
В книге вы шаг за шагом воссоздадите компактную версию DeepSeek, которую можно запускать на обычном ноутбуке. Вы начнёте с краткого обзора основ LLM и ограничений стандартных трансформеров, а затем реализуете ключевые идеи DeepSeek: Multi-Head Latent Attention, Mixture-of-Experts слои, высокоэффективный тренировочный пайплайн с Multi-Token Prediction и FP8-квантованием, а также методы пост-тренировки — от supervised fine-tuning до reinforcement learning для развития способности к рассуждению.
Книга делает акцент на практику: наглядные визуализации, подробные разборы кода и логика «проблема — решение» помогают превратить сложные концепции в прикладные навыки. В финале у вас будет полностью рабочая мини-версия DeepSeek и чёткое понимание того, как масштабировать, сжимать и адаптировать подобные модели для исследовательских или промышленных задач.
Посмотреть больше
Авторы - Dr. Sreedath Pana, Naman Dwivedi, Rajat Dandekar
Dr. Sreedath Pana — инженер-исследователь и предприниматель, известный своими разработками в области AI и устойчивых технологий:Он имеет PhD (докторскую степень) от Massachusetts Institute of Technology (MIT), где изучал прикладные методы механики, машинного обучения и искусственного интеллекта. Окончил IIT Madras (двойная степень BTech) до поступления в MIT. Cоосновал Vizuara AI Labs, где выступает как инженер и стратег по продуктам AI. Известен
Naman Dwivedi — исследователь и инженер машинного обучения, связанный с Vizuara AI Labs:Работает в Vizuara AI Labs как AI-исследователь, где специализируется на переводе продвинутых концепций глубокого обучения в практический код и рабочие реализации. Упоминается как один из молодых участников команды, участвующий в разработке упражнений и проектов по ML, включая модули и практические задания по моделям глубокого обучения. Публикует обучающий и т
Dr. Rajat Dandekar — исследователь и предприниматель в области искусственного интеллекта и машинного обучения:Получил PhD по машиностроению в Purdue University (США), где работал над применением методов машинного обучения к сложным физическим системам. Имеет также BTech и MTech степени (IIT Madras). Специализируется на моделях машинного обучения и их применении к задачам из инженерии и научных расчётов. Соосновал Vizuara AI Labs (также участвовал