Cloud.ru

SRE-инженер

Не указана

На этой позиции тебе предстоит:

Проектировать, разрабатывать, внедрять и поддерживать SLO/SLI для всех сервисов;
Участвовать в устранении инцидентов - в связке со смежными командами устранять сбои и предотвращать их повторение;
Участвовать в заполнении и разборе постмортемов;
Расследовать причины инцидентов (RCA);
Разрабатывать и выполнять меры, направленные на предотвращение повторных инцидентов;
Развивать мониторинг и алертинг - разработка, обогащение, настройка метрик, логов, трейсов, алертов, дашбордов, ранбуков (и их регулярный анализ/рефакторинг);
Автоматизировать рутинную работу;

Что мы ждем от кандидата:

Экспертные знания в эксплуатации Linux, включая диагностику на уровне ядра (процессы, память, сеть);
Опыт работы с Kubernetes и понимание его internal'ов для диагностики сложных проблем;
Понимание, как работают сети и умение диагностировать проблемы в их работе;
Практический опыт IaаC (Terraform/Ansible) и понимание принципов;
Практический опыт построения CI/CD (Gitlab CI, Argo CD);
Умение писать автоматизацию и скрипты на Python/Go;
Опыт работы с системами мониторинга и логирования (Prometheus, Grafana, Loki, Tempo, ELK);
Понимание, что такое SLO и SLI и умение применять их на практике;
Уверенный опыт в SRE/Platform/DevOps роли.

Будет плюсом, если вы:

Имеете практический опыт работы SRE;
Знаете, как сделать отказоустойчивый масштабируемый сервис;
Имеете опыт написания и ревью технической документации;
Обладаете системным мышлением и умением анализировать сложные сценарии отказа, выявлять корневые причины, находить способы их устранения.