Вы погрузитесь в теорию и практику SRE: будете поддерживать сайт, состоящий из нескольких микросервисов. Научитесь правильно распределять ограниченные ресурсы для обеспечения быстродействия, отказоустойчивости и доступности сайта для максимальной надежности, достаточной, чтобы были довольны пользователи.
На интенсиве вы будете:
Строить
Сформулируете показатели SLO, SLI, SLA для сайта, состоящего из нескольких микросервисов, разработаете архитектуру и инфраструктуру, которая их обеспечит, соберете, протестируете и задеплоите сайт, настроите мониторинг и алертинг.
Ломать
Рассмотрите внутренние и внешние факторы ухудшения SLO: ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DDoS-атаки. Разберетесь в устойчивости, error budget, практике тестирования, управлении прерываниями и операционной нагрузкой.
Чинить
Поймете как организовать работу группы по ликвидации аварии в минимальные сроки: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Попробуете на практике восстановить работоспособность сервиса в условиях предельно ограниченного времени.
Изучать
Разберете подход к сайту с точки зрения SRE. Проанализируете инциденты (причины возникновения, ход устранения). Примете решение по их дальнейшему предотвращению: улучшить мониторинг, изменить архитектуру, подход к разработке и эксплуатации, регламенты. Автоматизируете процессы.
Требования к участникам:
Свободное владение Linux;
Любой язык программирования: уровень Junior;
GitLab: навыки автоматизации;
Prometheus: навыки мониторинга;
Kubernetes: навыки работы в кластере.
Посмотреть больше
Этот материал находится в платной подписке. Оформи премиум подписку и смотри или слушай
SRE онлайн-интенсив,
а также все другие курсы, прямо сейчас!
I wish we had this sort of courses in English. Russians are so lucky to have courses like this. Better start learning Russian too
Anonymous
Anonymous
You are more fortunate, you have orelly and linux academy, and there is a lot more information and it is much better presented.
gaurav.tcs15
Any way to translate these videos to english or attach english subtitles ?
Команда внимательно читает ваши комментарии и оперативно на них реагирует. Вы можете спокойно оставлять запросы на обновления или задавать любые вопросы о курсе здесь.
Трёхдневный интенсив для тех, кто не знает Kubernetes, но хочет с ним познакомиться и начать работать. Интенсив создан для команд и компаний, эксплуатирующих Kubernetes или готовящихся переходить на него. Программа позволит легко влиться в команду, работающую с Kubernetes, или сразу начать осознанные эксперименты с ним.
Для тех, кто хочет администрировать десятки серверов и спокойно спать по ночам. Вы получите стандарты работы, к которым компания Southbridge пришла за 10 лет, настроив тысячи серверов и решив миллионы проблем. Мы передадим вам свои инструменты, регламенты, подходы, инструкции и скрипты.
Знакомимся с Prometheus. Разбираемся с нюансами, не описанными в документации. Изучаем тонкости настройки Prometheus. Понимать принципы работы мониторинга должны все, кто работает над проектом: разработчики, инженеры эксплуатации. Онлайн-курс по Prometheus позволит быстро познакомиться с этим инструментом.
На примере одной компании изучаем переход от деплоя раз в месяц к деплою раз в час и взгляд на DevOps со всех точек зрения. Сторона заказчика: как быстрее и дешевле решать бизнес-задачи, выкатывать новые фичи и исправлять баги. Мы расскажем и покажем как деплоить код без downtime.