
МФК ВЭББАНКИР
SRE инженер (Надёжность сервисов, Kubernetes, Мониторинг)
- Terraform
- Helm
- GitLab CI
- Yandex Cloud
- Grafana
- Prometheus
- Zabbix
Наша команда ищет опытного SRE/DevOps инженера для развития и обеспечения надежности нашей микросервисной инфраструктуры. Если вы эксперт в Kubernetes, мониторинге и автоматизации и хотите внедрять лучшие практики SRE – вы нам подходите!
Чем предстоит заниматься:
-
Сопровождение, обеспечение бесперебойной работы и развитие микросервисной архитектуры на базе Kubernetes и Nomad.
-
Разработка и реализация стратегии мониторинга, настройка алертов на основе SLO и error budgets.
-
Организация и проведение постмортемов инцидентов, контроль внедрения корректирующих мер.
-
Оценка доступности сервисов, анализ деградаций с привязкой к бизнес-метрикам.
-
Разработка и реализация мероприятий по повышению надежности и доступности сервисов в облаке Yandex Cloud (включая архитектурные решения).
-
Сопровождение и развитие стеков мониторинга (Victoria Metrics), визуализации (Grafana) и логирования (GrayLog).
-
Автоматизация рутинных операций мониторинга.
-
Внедрение практик SRE в команду.
-
Управление error budget.
Мы ждем, что у вас есть:
-
Опыт разработки и поддержки SLI/SLO/SLA.
-
Экспертные знания Linux (CentOS, Debian, Ubuntu, AlmaLinux).
-
Опыт администрирования Yandex Cloud, AWS или аналогичных облачных платформ.
-
Опыт работы с IaC и CI/CD инструментами (Terraform, Helm, GitLab CI/CD).
-
Опыт администрирования и траблшутинга высоконагруженных кластеров Kubernetes (managed/unmanaged).
-
Глубокое знание систем мониторинга: Victoria Metrics, Prometheus, Grafana, Zabbix.
-
Навыки скриптования (Bash, Python, Go).
-
Опыт расследования инцидентов на основе логов и метрик.
-
Понимание сетевых технологий (уровень не ниже CCNA).
-
Навыки командной работы, ответственность, готовность помогать коллегам.
Будет большим плюсом:
-
Опыт работы с RabbitMQ и Kafka.
-
Знание принципов Chaos Engineering.
-
Знание security best practices (IAM, сетевые политики, шифрование).
-
Опыт работы с различными СУБД (MongoDB, PostgreSQL, Redis) – настройка, базовая оптимизация.
-
Опыт донесения технических SRE-метрик до бизнеса.
Мы предлагаем:
-
Официальное трудоустройство с полным соблюдением ТК РФ, социальные гарантии.
-
Оплачиваемые переработки (возникают достаточно редко).
-
Удаленный формат работы.
-
Крепкая команда экспертов: взаимопомощь, поддержка и возможность учиться у лучших.
-
Интересные задачи с использованием современных технологий, реальная возможность влиять на инфраструктуру и развивать свои навыки.
-
Работа в стабильной официальной ИТ-компании.