Эта книга посвящена ключевой задаче современной ИИ-инженерии — выравниванию моделей в соответствии с человеческими предпочтениями. Обучение с подкреплением по человеческой обратной связи (RLHF) позволяет сделать модели безопаснее, понятнее, удобнее и точнее настроенными под конкретный стиль разработчика. В своей книге Натан Ламберт объединяет философские и экономические идеи с фундаментальной математикой и компьютерными науками RLHF, предлагая практическое руководство по применению этих методов на собственных моделях.
Вы узнаете, как современные модели обучаются на человеческих предпочтениях, как собирать и улучшать крупномасштабные датасеты предпочтений, и получите подробное изложение основных методов обучения с помощью policy-gradient алгоритмов. Книга охватывает Direct Preference Optimization (DPO), прямые алгоритмы выравнивания, упрощённые методы тонкой настройки по предпочтениям, а также объясняет, как эволюция RLHF привела к появлению нового подхода — RLVR. Автор разбирает индустриальные практики пост-тренинга: обучение характера и личности, использование обратной связи от ИИ, комплексные схемы оценки качества и современные рецепты комбинирования инструкционного обучения с RLHF. Ламберт делится реальным опытом создания открытых моделей вроде Llama-Instruct, Zephyr, Olmo и Tülu.
После того как ChatGPT стал промышленным продуктом благодаря RLHF, технология стремительно распространилась. В этой книге Натан Ламберт впервые предлагает взгляд изнутри на современные RLHF-пайплайны, их преимущества и компромиссы, подкрепляя объяснения практическими экспериментами и минимальными реализациями. Читатель получает целостное понимание основ RLHF, методов оптимизации, конституционного ИИ, синтетических данных и новых подходов к оценке моделей — а также представление о нерешённых проблемах, над которыми сегодня работает сообщество. Книга помогает войти в передний ряд тех, кто создаёт и выравнивает модели следующего поколения.
Посмотреть больше
Автор - Nathan Lambert
Nathan Lambert
Натан Ламберт — руководитель направления post-training в Институте искусственного интеллекта Аллена. Ранее он работал в HuggingFace, DeepMind и Facebook AI. Натан выступал приглашённым лектором в Стэнфорде, Гарварде, MIT и других ведущих университетах, а также является постоянным и востребованным докладчиком на NeurIPS и других конференциях по искусственному интеллекту. Он удостоен ряда профессиональных наград, включая «Best Theme Paper Award» на
Команда внимательно читает ваши комментарии и оперативно на них реагирует. Вы можете спокойно оставлять запросы на обновления или задавать любые вопросы о курсе здесь.