RLHF и пост-тренинг LLM
Эта книга посвящена ключевой задаче современной ИИ-инженерии — выравниванию моделей в соответствии с человеческими предпочтениями. Обучение с подкреплением по человеческой обратной связи (RLHF) позволяет сделать модели безопаснее, понятнее, удобнее и точнее настроенными под конкретный стиль разработчика. В своей книге Натан Ламберт объединяет философские и экономические идеи с фундаментальной математикой и компьютерными науками RLHF, предлагая пр