
RLHF и пост-тренинг LLM
Курс предлагает глубоко структурированное и практико-ориентированное погружение в методы выравнивания больших языковых моделей с помощью человеческой обратной связи. Материал помогает понять как теоретические основы RLHF, так и реальные инженерные пайплайны, применяемые в индустрии для создания современных LLM.О чём этот курсКурс основан на книге Натана Ламберта и объединяет философские идеи, экономику ИИ, фундаментальные алгоритмы RL и соврем
