Курс создан для инженеров, ML‑разработчиков и технических PM-ов, которым нужно системно и предсказуемо улучшать качество AI‑продуктов. Это практическое руководство по тому, как оценивать, тестировать и развивать LLM‑системы вне зависимости от их масштаба и архитектуры.
Зачем инженеру или PM-у разбираться в оценке AI-систем
Современные AI‑приложения работают вероятностно, меняют поведение от версии к версии и могут «ломаться» в непредсказуемых местах. Без правильного подхода к оценке вы рискуете:
тратить недели на эксперименты без улучшений;
вносить изменения в промпты или пайплайны, которые ухудшают результаты;
опираться на интуицию вместо данных;
не понимать, куда направлять инженерные ресурсы;
случайно оптимизировать не то, что действительно важно пользователям.
Этот курс закрывает все эти проблемы и даёт чёткую систему действий, которую можно применять к любым AI‑продуктам: чатботам, RAG‑системам, генерации контента, аналитическим ассистентам, мультимодальным пайплайнам и др.
Что делает этот курс уникальным
В отличие от теоретических лекций, курс построен вокруг реальной инженерной практики. Вы будете работать с кодом, метриками, датасетами и пайплайнами оценки — и увидите, как быстро можно улучшить качество модели, если использовать правильные методики.
занятия 2 раза в неделю в течение 4 недель;
регулярные office hours, где можно разобрать свои задачи;
доступ к записям, материалам и практическим ноутбукам;
ориентация на реальные проблемы и реальные сценарии.
Структура курса
1. Основы и жизненный цикл оценки LLM-приложений
что значит «качество» для AI-систем;
как формировать задачи и критерии оценки;
переход от субъективных ощущений к объективным данным.
Хамель Хусейн - инженер в области машинного обучения с более чем 20-летним опытом. Работал в инновационных компаниях, таких как Airbnb и GitHub, где занимался ранними исследованиями LLM для понимания кода, использованными в OpenAI. Является автором и участником множества популярных open-source инструментов для машинного обучения. В настоящее время Хамель работает независимым консультантом, помогая компаниям создавать AI-продукты.
Шрея Шанкар - инженер в области машинного обучения и кандидатка наук (PhD) по компьютерным наукам в UC Berkeley, где она разрабатывает системы, помогающие людям эффективно использовать ИИ для работы с данными. Её исследования сосредоточены на создании практических инструментов и фреймворков для построения надёжных ML-систем, включая недавние прорывные работы по оценке LLM и качеству данных. Она опубликовала влиятельные статьи об оценке и согласов
Guys, could you please check for updates (new materials, etc) because this course is really great for AI devs.
CourseHunter Team
UPDATE: Lesson 5 FIXED
Anonymous
Guys, sorry to bother. Could you please fix lesson 5?
CourseHunter Team Anonymous
Okay, we checked the information about lesson 5, and unfortunately, there’s nothing else there. We have everything exactly the same as in the original course.
Anonymous Anonymous
Also is there any way you could compile reflection questions from the course? :) sorry and thank you
Anonymous
Lesson 5 seems to be missing?
Anonymous Anonymous
100%, this is unfortunate, the title is very exciting
CourseHunter Team Anonymous
Seems ok
Anonymous CourseHunter Team
Could you please take a look at it? all lectures are 1 hour long and the stated content is "more automated evaluators", it's definitely not what the guy in the video is talking about.
CourseHunter Team Anonymous
Okay, we checked the information about lesson 5, and unfortunately, there’s nothing else there. We have everything exactly the same as in the original course.
Anonymous CourseHunter Team
We have "Lesson 4. Automated Evaluators" recording, which is one hour ~ long.
Then we have "Lesson 5. More Automated Evaluators," which is five minutes long and isn't the lesson but a homework walkthrough.
Then we have "Lesson 5. More Automated Evaluators," which is five minutes long and isn't the lesson but a homework walkthrough.