АО «ОТП Банк» (JSC «OTP Bank»)

Лидер направления SRE (мониторинг и алертинг)

Не указана
  • Москва
  • Полная занятость
  • Удаленная работа
  • Более 6 лет

Мы усиливаем команду SRE и ищем лидера направления, который выстроит современный мониторинг и алертинг, а затем сформирует собственную команду.

Чем предстоит заниматься:

  • Развивать и поддерживать систему мониторинга и алертинга на базе Zabbix, Grafana, Prometheus;
  • Построить единые подходы к наблюдаемости и взаимодействию с продуктовыми командами;
  • Разрабатывать и внедрять дашборды, метрики и алерты для продуктовых и инфраструктурных систем;
  • Настроить мониторинг интеграций между системами и внешними сервисами;
  • Автоматизировать процессы сбора метрик и обработки событий;
  • Участвовать в анализе инцидентов и постмортемах, внедрять улучшения для предотвращения повторных аварий;
  • Снижать MTTR (mean time to recovery) и повышать надежность бизнес-критичных систем;
  • В перспективе — набирать команду инженеров, обучать и развивать их, распределять задачи внутри направления.


Что мы ждём:

  • Опыт работы с системами мониторинга (Zabbix, Grafana, Prometheus или аналогами);
  • Знание принципов построения эффективного мониторинга и алертинга (SLA/SLO/Error budget);
  • Понимание архитектуры распределённых систем и интеграций;
  • Опыт автоматизации (bash/python/go, Ansible/Terraform будет плюсом);
  • Навыки анализа инцидентов и поиска первопричин проблем;
  • Опыт взаимодействия с продуктовыми командами и умение объяснять ценность наблюдаемости;
  • Лидерские качества: готовность брать ответственность, формировать команду и развивать специалистов.

Будет плюсом:

  • Опыт работы в финансовых или других высоконагруженных/критичных системах;
  • Практика внедрения SRE-практик (postmortem, error budget, chaos testing);
  • Опыт управления командой или наставничества;
  • Знание CI/CD и контейнерных технологий (Docker, Kubernetes).