Marfatech

Incident manager

Не указана

Москва
Полная занятость
Удаленная работа
От 3 до 6 лет

ITIL

Привет! Мы - аккредитованная IT-компания MarfaTech, разрабатывающая собственные высокотехнологичные продукты для b2b клиентов глобальных рынков.

У нас большая экспертиза в используемых технологиях и мало legacy. Мы любим свой код и поддерживаем его в актуальном состоянии. На проектах используем самые актуальные и современные технологии.

Наш стек: PHP 8+, Go, Python, MySQL, Clickhouse, Redis, Docker, Kubernetes, Git, CI/CD

Наши ценности:

Мастерство - Мы профессионалы своего дела и всегда увеличиваем свое мастерство!

Осознанность - Мы точно знаем, что мы делаем и зачем!

Сотрудничество - Мы помогаем друг другу быть лучше в том, что мы делаем!

И мы ищем в команду Incident manager, который возьмёт на себя лидерство по внедрению и формализации процесса Incident Management в компании. Мы ищем не просто исполнителя, а драйвера изменений — того, кто умеет выстраивать процессы, развивать культуру устойчивости, и видеть за каждым инцидентом точку роста.

Инструменты, с которыми работаем:

Alerting & Monitoring: Grafana, Prometheus, Zabbix, Open Telemetry

Incident tooling: Grafana IRM, Slack, Jira, Confluence

CI/CD & Infrastructure: GitLab, ArgoCD, Kubernetes, Terraform

Чем у нас предстоит заниматься:

Формализовать текущую практику реагирования на инциденты: роли, чек-листы, инструменты, метрики;
Внедрить лучшие практики SRE и ITIL (blameless postmortem, 5 whys, major incident playbook и т.д.);
Настроить сквозной процесс: от детекции инцидента до RCA, postmortem и задач на улучшение;
Определить ключевые метрики зрелости (MTTA, MTTR, повторяемость, доля инцидентов с RCA);
Вести регулярную отчетность и ретроспективы;
Поддерживать цикл непрерывного улучшения: симуляции, аудит, обучение дежурных;
Взаимодействовать с командами Dev, QA, Support, PM, инфраструктурой;
Обеспечивать прозрачность процессов для всех стейкхолдеров;
Регулярно презентовать результаты и улучшения.

Что мы ждем от кандидата:

3–6 лет опыта в управлении инцидентами, эксплуатации, SRE или DevOps.
Умение работать по ITIL, знание что такое постмортем и умение его фасилитировать;
Способность самому выстроить и поддерживать процесс с нуля: от дежурств до аналитики;
Не боишься брать ответственность и быть точкой принятия решений при инцидентах;
Хорошо работаешь в диалоге;
Мы не просто закрываем инциденты, мы учимся на них и улучшаем;
Понимаем последствия своих действий, умеем признать ошибку и сделать вывод;
Процесс инцидент-менеджмента не работает в одиночку, ты — связующее звено между всеми.

Мы предлагаем:

Достойный уровень заработной платы;
Сильную техническую команду, которая всегда готова делиться опытом, у нас работают лучшие технические эксперты;
Влияние — ты выстраиваешь один из ключевых процессов инженерной надежности;
Команду, готовую поддержать изменения;
Среду, где ценится системность, инициатива и умение держать процесс в руках;
Участие в построении зрелой SRE-функции в растущей компании.
Гарантируем полное отсутствие бюрократии и технологическую свободу;
Возможность карьерного роста и профессионального развития;
Открытая и свободная friendly среда - у нас ты сможешь сам задавать тренды, а не следовать им;
50% компенсация оплаты изучения английского языка;
Компенсация занятий спортом;
10 бесплатных сессий и 50% компенсация оплаты консультаций психолога;
График работы: пять дней в неделю (гибкое начало дня).

Источник вакансии

Вернуться, к списку вакансий