Cloud.ru

SRE-инженер

Не указана
  • Москва
  • Полная занятость
  • Удаленная работа
  • От 3 до 6 лет

На этой позиции тебе предстоит:

  • Проектировать, разрабатывать, внедрять и поддерживать SLO/SLI для всех сервисов;
  • Участвовать в устранении инцидентов - в связке со смежными командами устранять сбои и предотвращать их повторение;
  • Участвовать в заполнении и разборе постмортемов;
  • Расследовать причины инцидентов (RCA);
  • Разрабатывать и выполнять меры, направленные на предотвращение повторных инцидентов;
  • Развивать мониторинг и алертинг - разработка, обогащение, настройка метрик, логов, трейсов, алертов, дашбордов, ранбуков (и их регулярный анализ/рефакторинг);
  • Автоматизировать рутинную работу;

Что мы ждем от кандидата:

  • Экспертные знания в эксплуатации Linux, включая диагностику на уровне ядра (процессы, память, сеть);
  • Опыт работы с Kubernetes и понимание его internal'ов для диагностики сложных проблем;
  • Понимание, как работают сети и умение диагностировать проблемы в их работе;
  • Практический опыт IaаC (Terraform/Ansible) и понимание принципов;
  • Практический опыт построения CI/CD (Gitlab CI, Argo CD);
  • Умение писать автоматизацию и скрипты на Python/Go;
  • Опыт работы с системами мониторинга и логирования (Prometheus, Grafana, Loki, Tempo, ELK);
  • Понимание, что такое SLO и SLI и умение применять их на практике;
  • Уверенный опыт в SRE/Platform/DevOps роли.

Будет плюсом, если вы:

  • Имеете практический опыт работы SRE;
  • Знаете, как сделать отказоустойчивый масштабируемый сервис;
  • Имеете опыт написания и ревью технической документации;
  • Обладаете системным мышлением и умением анализировать сложные сценарии отказа, выявлять корневые причины, находить способы их устранения.