Главная страница Категория другое (ии) RLHF и пост-тренинг LLM

RLHF и пост-тренинг LLM

Name: RLHF и пост-тренинг LLM
Price: 13 USD
Rating: 5 (2 reviews)

The RLHF Book. Reinforcement learning from human feedback, alignment, and post-training LLMs

Nathan Lambert

Начать Сейчас

Категория

Другое (ИИ)

Дата добавления

27 нояб. 2025 г., 00:45

Язык

Английский

Эта книга посвящена ключевой задаче современной ИИ-инженерии — выравниванию моделей в соответствии с человеческими предпочтениями. Обучение с подкреплением по человеческой обратной связи (RLHF) позволяет сделать модели безопаснее, понятнее, удобнее и точнее настроенными под конкретный стиль разработчика. В своей книге Натан Ламберт объединяет философские и экономические идеи с фундаментальной математикой и компьютерными науками RLHF, предлагая практическое руководство по применению этих методов на собственных моделях.

Вы узнаете, как современные модели обучаются на человеческих предпочтениях, как собирать и улучшать крупномасштабные датасеты предпочтений, и получите подробное изложение основных методов обучения с помощью policy-gradient алгоритмов. Книга охватывает Direct Preference Optimization (DPO), прямые алгоритмы выравнивания, упрощённые методы тонкой настройки по предпочтениям, а также объясняет, как эволюция RLHF привела к появлению нового подхода — RLVR. Автор разбирает индустриальные практики пост-тренинга: обучение характера и личности, использование обратной связи от ИИ, комплексные схемы оценки качества и современные рецепты комбинирования инструкционного обучения с RLHF. Ламберт делится реальным опытом создания открытых моделей вроде Llama-Instruct, Zephyr, Olmo и Tülu.

После того как ChatGPT стал промышленным продуктом благодаря RLHF, технология стремительно распространилась. В этой книге Натан Ламберт впервые предлагает взгляд изнутри на современные RLHF-пайплайны, их преимущества и компромиссы, подкрепляя объяснения практическими экспериментами и минимальными реализациями. Читатель получает целостное понимание основ RLHF, методов оптимизации, конституционного ИИ, синтетических данных и новых подходов к оценке моделей — а также представление о нерешённых проблемах, над которыми сегодня работает сообщество. Книга помогает войти в передний ряд тех, кто создаёт и выравнивает модели следующего поколения.

Посмотреть больше

Автор - Nathan Lambert

Nathan Lambert

Натан Ламберт — руководитель направления post-training в Институте искусственного интеллекта Аллена. Ранее он работал в HuggingFace, DeepMind и Facebook AI. Натан выступал приглашённым лектором в Стэнфорде, Гарварде, MIT и других ведущих университетах, а также является постоянным и востребованным докладчиком на NeurIPS и других конференциях по искусственному интеллекту. Он удостоен ряда профессиональных наград, включая «Best Theme Paper Award» на

Категории

Комментарии

Команда внимательно читает ваши комментарии и оперативно на них реагирует. Вы можете спокойно оставлять запросы на обновления или задавать любые вопросы о курсе здесь.