Главная страницаКатегория другое (ии)Как оценивать ИИ-системы: курс для инженеров и PM-ов

Как оценивать ИИ-системы: курс для инженеров и PM-ов

Name: Как оценивать ИИ-системы: курс для инженеров и PM-ов
Price: 13 USD
Rating: 5 (20 reviews)

AI Evals For Engineers & PMs

Hamel Husain

Shreya Shankar

★5 (всего оценок - 20)

Как оценивать ИИ-системы: курс для инженеров и PM-ов

Начать Сейчас

Продолжительность

30 ч 12 мин

Категория

Другое (ИИ)

Количество уроков

41 Видео

Дата добавления

7 сент. 2025 г., 16:39

Язык

Английский

Дата обновления

24 окт. 2025 г., 23:40

Научитесь проверенным методикам быстрого улучшения AI-приложений. Стройте системы искусственного интеллекта, которые работают лучше конкурентов - вне зависимости от конкретного сценария использования.

Если при работе с AI у вас возникают вопросы вроде:

Как тестировать приложения, где результаты вероятностные и требуют субъективной оценки?
Если я меняю промпт, как убедиться, что ничего другого не сломал?
На что направить инженерные усилия? Нужно ли тестировать всё?
Что делать, если нет данных или пользователей - с чего начать?
Какие метрики отслеживать? Какие инструменты использовать? Какие модели выбрать?
Можно ли автоматизировать тестирование и оценку? И если да - как этому доверять?

- значит, этот курс для вас.

Это практический курс для инженеров и технических продакт-менеджеров. Идеален для тех, кто умеет программировать или «любит кодинг на ощущениях».

Чего ожидать

Вас ждёт интенсивная практика: упражнения, работа с кодом и данными. Мы встречаемся дважды в неделю в течение четырёх недель + выделяем щедрые office hours. Все занятия записываются и будут доступны в асинхронном формате.

Содержание курса

Основы и жизненный цикл оценки LLM-приложений
Систематический анализ ошибок
Построение эффективных метрик и пайплайнов автоматизированной оценки
Коллаборативные практики и согласование критериев оценки
Стратегии тестирования для разных архитектур (RAG, пайплайны, мультимодальные системы и др.)
Мониторинг в продакшене и непрерывная оценка качества
Организация эффективного процесса human-in-the-loop ревью
Оптимизация затрат и маршрутизация запросов

Результаты обучения

Освоите лучшие инструменты для поиска, диагностики и приоритизации ошибок в AI.
Узнаете, как использовать синтетические данные до появления пользователей и как максимально эффективно задействовать реальные данные.
Построите «data flywheel», который гарантирует улучшение вашего AI со временем.
Научитесь автоматизировать часть процессов оценки и доверять им.
Сможете настроить AI под ваши предпочтения и требования.
Избежите распространённых ошибок, накопленных на опыте более 35 AI-проектов.
Получите практику через end-to-end упражнения, код и разбор реальных кейсов.

Посмотреть больше

Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум

Урок 1. 00:56:41
1. Lesson 1. Fundamentals & Lifecycle LLM Application Evaluation
Урок 2. 01:01:39
2. Lesson 2. Systematic Error Analysis
Урок 3. 00:43:03
3. Braintrust Tutorial w Wayde Gilliam
Урок 4. 01:40:14
4. Optional. Office Hours
Урок 5. 00:59:34
5. Lesson 3. More Error Analysis & Collaborative Evaluation
Урок 6. 01:00:35
6. Lesson 4. Automated Evaluators
Урок 7. 00:44:43
7. Taming diffusion QR codes with evals and inference-time scaling w Charles Frye
Урок 8. 00:28:26
8. 10x Your RAG Evaluation by Avoiding these Pitfalls w Skylar Payne
Урок 9. 01:18:26
9. Optional. Office Hours
Урок 10. 00:47:12
10. Optional. Office Hours
Урок 11. 00:55:56
11. Lesson 5. More Automated Evaluators
Урок 12. 00:59:46
12. Lesson 6. RAG & Complex Architectures
Урок 13. 00:31:09
13. Scaling Inference-Time Compute for Better LLM Judges w Leonard Tang
Урок 14. 00:46:39
14. Building custom eval tools with coding agents w Isaac Flath
Урок 15. 00:30:03
15. From Vibe Checks to Evals to Feedback Loops - Case Studies in Al System Maturities w David Karam
Урок 16. 00:38:26
16. A Playbook For Building Al Agents You Can Trust w Udi Menkes
Урок 17. 00:34:16
17. Al Evals in Vertical Industries (such as healthcare, finance and law) w Dr Chris Lovejoy
Урок 18. 00:49:03
18. Arize Phoenix tutorial W Mikyo King
Урок 19. 00:22:32
19. Optional. Office Hours
Урок 20. 00:24:20
20. Optional. Office Hours
Урок 21. 00:55:49
21. Optional. Office Hours
Урок 22. 00:59:03
22. Lesson 7. Efficient Continuous Human Review Systems
Урок 23. 01:03:11
23. Lesson 8. Cost Optimization
Урок 24. 00:33:38
24. Techniques for evaluating agents w SallyAnn DeLucia (Arize)
Урок 25. 00:48:24
25. LangSmith Tutorial w Harrison Chase
Урок 26. 01:10:21
26. From Noob to 5 Automated Evals in 4 Weeks (as a PM) w Teresa Torres
Урок 27. 01:42:26
27. Solvelt. The Thinking Developer's Environment w Jeremy Howard & Johno Whitaker
Урок 28. 01:00:49
28. Testing Real Al Products LIVE w Robert Ta
Урок 29. 00:45:00
29. Fireside Chat with DSP Creator w Omar Khattab
Урок 30. 01:06:31
30. Optional. Office Hours
Урок 31. 01:05:26
31. Optional. Office Hours (Bonus)
Урок 32. 00:10:50
HW 1&2 walkthrough with Braintrust (pre-recorded) 1
Урок 33. 00:05:13
HW 1&2 walkthrough with Braintrust (pre-recorded) 2
Урок 34. 00:15:04
HW 1&2 walkthrough with Phoenix (pre-recorded)
Урок 35. 00:22:41
HW 1&2 walkthrough with LangSmith (pre-recorded)
Урок 36. 00:21:41
HW 3 walkthrough with Braintrust (pre-recorded)
Урок 37. 00:16:40
HW 3 walkthrough with Phoenix (pre-recorded)
Урок 38. 00:23:11
HW 4 walkthrough with Braintrust (pre-recorded)
Урок 39. 00:16:39
HW 4 walkthrough with Phoenix (pre-recorded)
Урок 40. 00:22:03
HW 5 walkthrough with Braintrust (pre-recorded)
Урок 41. 00:14:58
HW 5 walkthrough with Phoenix (pre-recorded)

Авторы - Hamel Husain, Shreya Shankar

Hamel Husain

Хамель Хусейн - инженер в области машинного обучения с более чем 20-летним опытом. Работал в инновационных компаниях, таких как Airbnb и GitHub, где занимался ранними исследованиями LLM для понимания кода, использованными в OpenAI. Является автором и участником множества популярных open-source инструментов для машинного обучения. В настоящее время Хамель работает независимым консультантом, помогая компаниям создавать AI-продукты.

Shreya Shankar

Шрея Шанкар - инженер в области машинного обучения и кандидатка наук (PhD) по компьютерным наукам в UC Berkeley, где она разрабатывает системы, помогающие людям эффективно использовать ИИ для работы с данными. Её исследования сосредоточены на создании практических инструментов и фреймворков для построения надёжных ML-систем, включая недавние прорывные работы по оценке LLM и качеству данных. Она опубликовала влиятельные статьи об оценке и согласов

Комментарии

CourseHunter Team
24 окт. 2025 г., 23:41
UPDATE: Lesson 5 FIXED
Anonymous
24 сент. 2025 г., 20:18
Guys, sorry to bother. Could you please fix lesson 5?
CourseHunter Team Anonymous
29 сент. 2025 г., 13:38
Okay, we checked the information about lesson 5, and unfortunately, there’s nothing else there. We have everything exactly the same as in the original course.
Anonymous Anonymous
24 сент. 2025 г., 20:49
Also is there any way you could compile reflection questions from the course? :) sorry and thank you
Anonymous
22 сент. 2025 г., 06:23
Lesson 5 seems to be missing?
Anonymous Anonymous
24 сент. 2025 г., 10:44
100%, this is unfortunate, the title is very exciting
CourseHunter Team Anonymous
23 сент. 2025 г., 02:44
Seems ok
Anonymous CourseHunter Team
24 сент. 2025 г., 10:40
Could you please take a look at it? all lectures are 1 hour long and the stated content is "more automated evaluators", it's definitely not what the guy in the video is talking about.
CourseHunter Team Anonymous
29 сент. 2025 г., 13:39
Okay, we checked the information about lesson 5, and unfortunately, there’s nothing else there. We have everything exactly the same as in the original course.
Anonymous CourseHunter Team
23 сент. 2025 г., 06:07
We have "Lesson 4. Automated Evaluators" recording, which is one hour ~ long.

Then we have "Lesson 5. More Automated Evaluators," which is five minutes long and isn't the lesson but a homework walkthrough.
cl0udsurfer
9 сент. 2025 г., 16:40
Thank you so much for this!