slurm.io
Интенсивы и онлайн-курсы от компании Southbridge: Kubernetes, DevOps, Docker, Ansible, Ceph. Учись вместе с нами!
Вы погрузитесь в теорию и практику SRE: будете поддерживать сайт, состоящий из нескольких микросервисов. Научитесь правильно распределять ограниченные ресурсы для обеспечения быстродействия, отказоустойчивости и доступности сайта для максимальной надежности, достаточной, чтобы были довольны пользователи.
На интенсиве вы будете:
Строить
Сформулируете показатели SLO, SLI, SLA для сайта, состоящего из нескольких микросервисов, разработаете архитектуру и инфраструктуру, которая их обеспечит, соберете, протестируете и задеплоите сайт, настроите мониторинг и алертинг.
Ломать
Рассмотрите внутренние и внешние факторы ухудшения SLO: ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DDoS-атаки. Разберетесь в устойчивости, error budget, практике тестирования, управлении прерываниями и операционной нагрузкой.
Чинить
Поймете как организовать работу группы по ликвидации аварии в минимальные сроки: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Попробуете на практике восстановить работоспособность сервиса в условиях предельно ограниченного времени.
Изучать
Разберете подход к сайту с точки зрения SRE. Проанализируете инциденты (причины возникновения, ход устранения). Примете решение по их дальнейшему предотвращению: улучшить мониторинг, изменить архитектуру, подход к разработке и эксплуатации, регламенты. Автоматизируете процессы.
Требования к участникам:
Это пробный урок. Оформите подписку, чтобы получить доступ ко всем материалам курса. Премиум
Вы можете просматривать пробный урок только 10 минут. Получите полный доступ, чтобы смотреть без ограничений.