
slurm.io
Интенсивы и онлайн-курсы от компании Southbridge: Kubernetes, DevOps, Docker, Ansible, Ceph.
Вы погрузитесь в теорию и практику SRE: будете поддерживать сайт, состоящий из нескольких микросервисов. Научитесь правильно распределять ограниченные ресурсы для обеспечения быстродействия, отказоустойчивости и доступности сайта для максимальной надежности, достаточной, чтобы были довольны пользователи.
На интенсиве вы будете:
Строить
Сформулируете показатели SLO, SLI, SLA для сайта, состоящего из нескольких микросервисов, разработаете архитектуру и инфраструктуру, которая их обеспечит, соберете, протестируете и задеплоите сайт, настроите мониторинг и алертинг.
Ломать
Рассмотрите внутренние и внешние факторы ухудшения SLO: ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DDoS-атаки. Разберетесь в устойчивости, error budget, практике тестирования, управлении прерываниями и операционной нагрузкой.
Чинить
Поймете как организовать работу группы по ликвидации аварии в минимальные сроки: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Попробуете на практике восстановить работоспособность сервиса в условиях предельно ограниченного времени.
Изучать
Разберете подход к сайту с точки зрения SRE. Проанализируете инциденты (причины возникновения, ход устранения). Примете решение по их дальнейшему предотвращению: улучшить мониторинг, изменить архитектуру, подход к разработке и эксплуатации, регламенты. Автоматизируете процессы.
Требования к участникам:
Интенсивы и онлайн-курсы от компании Southbridge: Kubernetes, DevOps, Docker, Ansible, Ceph.
Трёхдневный интенсив для тех, кто не знает Kubernetes, но хочет с ним познакомиться и начать работать. Интенсив создан для команд и компаний, эксплуатирующих Kubernetes или готовящихся переходить на него. Программа позволит легко влиться в команду, работающую с Kubernetes, или сразу начать осознанные эксперименты с ним.
Для тех, кто хочет администрировать десятки серверов и спокойно спать по ночам. Вы получите стандарты работы, к которым компания Southbridge пришла за 10 лет, настроив тысячи серверов и решив миллионы проблем. Мы передадим вам свои инструменты, регламенты, подходы, инструкции и скрипты.
Знакомимся с Prometheus. Разбираемся с нюансами, не описанными в документации. Изучаем тонкости настройки Prometheus. Понимать принципы работы мониторинга должны все, кто работает над проектом: разработчики, инженеры эксплуатации. Онлайн-курс по Prometheus позволит быстро познакомиться с этим инструментом.
На примере одной компании изучаем переход от деплоя раз в месяц к деплою раз в час и взгляд на DevOps со всех точек зрения. Сторона заказчика: как быстрее и дешевле решать бизнес-задачи, выкатывать новые фичи и исправлять баги. Мы расскажем и покажем как деплоить код без downtime.