Привет! Мы - аккредитованная IT-компания MarfaTech, разрабатывающая собственные высокотехнологичные продукты для b2b клиентов глобальных рынков.
У нас большая экспертиза в используемых технологиях и мало legacy. Мы любим свой код и поддерживаем его в актуальном состоянии. На проектах используем самые актуальные и современные технологии.
Наш стек: PHP 8+, Go, Python, MySQL, Clickhouse, Redis, Docker, Kubernetes, Git, CI/CD
Наши ценности:
Мастерство - Мы профессионалы своего дела и всегда увеличиваем свое мастерство!
Осознанность - Мы точно знаем, что мы делаем и зачем!
Сотрудничество - Мы помогаем друг другу быть лучше в том, что мы делаем!
И мы ищем в команду Incident manager, который возьмёт на себя лидерство по внедрению и формализации процесса Incident Management в компании. Мы ищем не просто исполнителя, а драйвера изменений — того, кто умеет выстраивать процессы, развивать культуру устойчивости, и видеть за каждым инцидентом точку роста.
Инструменты, с которыми работаем:
Alerting & Monitoring: Grafana, Prometheus, Zabbix, Open Telemetry
Incident tooling: Grafana IRM, Slack, Jira, Confluence
CI/CD & Infrastructure: GitLab, ArgoCD, Kubernetes, Terraform
Чем у нас предстоит заниматься:
- Формализовать текущую практику реагирования на инциденты: роли, чек-листы, инструменты, метрики;
- Внедрить лучшие практики SRE и ITIL (blameless postmortem, 5 whys, major incident playbook и т.д.);
- Настроить сквозной процесс: от детекции инцидента до RCA, postmortem и задач на улучшение;
- Определить ключевые метрики зрелости (MTTA, MTTR, повторяемость, доля инцидентов с RCA);
- Вести регулярную отчетность и ретроспективы;
- Поддерживать цикл непрерывного улучшения: симуляции, аудит, обучение дежурных;
- Взаимодействовать с командами Dev, QA, Support, PM, инфраструктурой;
- Обеспечивать прозрачность процессов для всех стейкхолдеров;
- Регулярно презентовать результаты и улучшения.
Что мы ждем от кандидата:
- 3–6 лет опыта в управлении инцидентами, эксплуатации, SRE или DevOps.
- Умение работать по ITIL, знание что такое постмортем и умение его фасилитировать;
- Способность самому выстроить и поддерживать процесс с нуля: от дежурств до аналитики;
- Не боишься брать ответственность и быть точкой принятия решений при инцидентах;
- Хорошо работаешь в диалоге;
- Мы не просто закрываем инциденты, мы учимся на них и улучшаем;
- Понимаем последствия своих действий, умеем признать ошибку и сделать вывод;
- Процесс инцидент-менеджмента не работает в одиночку, ты — связующее звено между всеми.
Мы предлагаем:
-
Достойный уровень заработной платы;
-
Сильную техническую команду, которая всегда готова делиться опытом, у нас работают лучшие технические эксперты;
-
Влияние — ты выстраиваешь один из ключевых процессов инженерной надежности;
-
Команду, готовую поддержать изменения;
-
Среду, где ценится системность, инициатива и умение держать процесс в руках;
-
Участие в построении зрелой SRE-функции в растущей компании.
-
Гарантируем полное отсутствие бюрократии и технологическую свободу;
-
Возможность карьерного роста и профессионального развития;
-
Открытая и свободная friendly среда - у нас ты сможешь сам задавать тренды, а не следовать им;
-
50% компенсация оплаты изучения английского языка;
-
Компенсация занятий спортом;
-
10 бесплатных сессий и 50% компенсация оплаты консультаций психолога;
-
График работы: пять дней в неделю (гибкое начало дня).