Команда Quantek работает на телекоммуникационном рынке c 2014 года, создавая проекты, связанные с разработкой решений для сотовых операторов, голосовых данных и SMS-сервисов. А также мы создаем уникальные нишевые продукты для наших клиентов.
Ищем специалиста, который будет участвовать в развитии мониторинга, алертинга, процессов работы с инцидентами, повышения надежности сервисов.
Обязанности:
-
Развитие системы мониторинга для продакшн-сервисов;
-
Настройка мониторинга Kubernetes-кластеров, баз-данных, своих приложений;
-
Создание и развитие дашбордов в Grafana (системные, прикладные, бизнес-метрики);
-
Проектирование алерт-политик;
-
Формирование требований к разработчикам по метрикам, логированию, трейсингу;
-
Участие в разборе инцидентов, планировании задач по итогам;
-
Участие в организации и оптимизации on-call процессов (реагирование на аварии);
-
Определение и внедрение SLI / SLO / SLA;
-
Поддержка и актуализация карты IT-ландшафта.
Требования:
-
Опыт работы в мониторинге / эксплуатации / SRE;
-
Опыт работы с распределёнными системами;
-
Grafana - опыт в построении и простых и сложных дашбордов;
-
Prometheus или VictoriaMetrics, уверенное владение PromQL / MetricsQL;
-
Опыт проектирования алертов в Grafana/Prometheus;
-
Kubernetes (понимание архитектуры и мониторинга);
-
Опыт работы с лог-агентами, организации мониторинга по ошибкам;
-
Linux/DevOps на базовом уровне для коммуникации с разработчиками/DevOps.
Условия:
- Гибридный/удаленный формат работы;
- ДМС после испытательного срока;
- Возможности для профессионального обучения и развития;
- Крутые корпоративные мероприятия и тимбилдинги.