ДОМ.РФ

SRE-инженер в команду Разработки и поддержки платформы

Не указана
  • Москва
  • Полная занятость
  • Удаленная работа
  • От 3 до 6 лет

Мы ищем инженера, который поможет нам вывести надёжность и наблюдаемость систем на новый уровень — не только на уровне платформы, но и во взаимодействии с продуктовыми командами.

Ты будешь одним из двух SRE в платформенной команде.

Задач хватит: от построения инструментов для оценки надёжности сервисов, до настройки и развития системы мониторинга под десятки команд с разной степенью зрелости.

И немного про нас: у нас нет дежурств, нет микроменеджмента, но есть много возможностей сделать среду лучше - и для себя, и для команд. Мы не ищем «фиксеров алертов», нам важны люди, способные влиять и развивать практики SRE.

ЧЕМ ПРЕДСТОИТ ЗАНИМАТЬСЯ:

  • Помогать продуктовым командам делать их сервисы наблюдаемыми: метрики, дашборды, алерты, трейсинг
  • Развивать мониторинг всей платформы — мы используем Prometheus, VictoriaMetrics, Grafana, Tempo, Sentry и OpenSearch
  • Создавать автоматические проверки для оценки качества и готовности сервисов — например, «юнит-тесты надёжности»: насколько конфигурация деплоя соответствует best practices
  • Автоматизировать и систематизировать всё, что можно: у нас уже есть GitOps, ArgoCD, Terraform, Terragrunt
  • Помогать выстраивать SLI/SLO, проводить аудит текущих решений, участвовать в проектировании новых

НАШИ ПОЖЕЛАНИЯ К КАНДИДАТУ:

  • Опыт работы SRE-инженером или похожей ролью на уровне senior или lead
  • Умение разбираться в чужих сервисах, не боясь пойти в чужой код или инфраструктуру
  • Практический опыт с Kubernetes, CI/CD, observability-инструментами
  • Автономность. У нас высокая самостоятельность - нужно уметь брать ответственность, задавать направление и доводить до результата
  • Умение разговаривать с людьми. Много взаимодействия с командами важно объяснять, а не только настраивать