
Ventra
Product SRE Manager
- Английский язык
- Atlassian Confluence
- Atlassian Jira
- Системное мышление
- Kubernetes
- Английский — C1 — Продвинутый
Мы ищем сотрудника для крупной международной компании, лидера в предоставлении критически важных коммуникационных сервисов. Решения (AirDial, SunDial и др.) требуют безупречной надежности, соответствия стандартам и высочайшего уровня исполнения. Мы создаем среду, где технологии и операционное совершенство встречаются для обеспечения бесперебойной работы для миллионов пользователей.
О ключевой роли:
Мы ищем опытного Менеджера по развертыванию и надежности, который станет архитектором стабильности производственных платформ. Ваша миссия — предсказуемость, контроль и непрерывное улучшение. Вы возьмете на себя ответственность за весь жизненный цикл релизов: от планирования и координации до глубокого анализа инцидентов и выстраивания отказоустойчивой архитектуры. Это возможность оказать реальное влияние на ключевые бизнес-процессы в технологичной и сложной среде.
Ключевые задачи и зоны ответственности:
-
Управление жизненным циклом развертывания:
-
Разработка и поддержка единого календаря релизов для всех продуктов и инфраструктурных компонентов.
-
Координация между командами разработки, QA, эксплуатации и внешними поставщиками для минимизации рисков и конфликтов.
-
Внедрение и контроль процессов принятия решений ("годен/не годен"), стратегий отката и этапов валидации.
-
-
Расследование инцидентов:
-
Проведение структурированного анализа сбоев, выявление и устранение коренных причин (Root Cause Analysis).
-
Формирование и контроль исполнения планов действий по предотвращению повторения инцидентов.
-
Повышение уровня ответственности и дисциплины среди инженерных команд и партнеров.
-
-
Анализ и улучшение надежности:
-
Экспертный анализ архитектуры систем (включая Kazoo, Qubicle) на предмет избыточности и отказоустойчивости.
-
Выявление слабых мест и рекомендации по улучшению мониторинга, автоматизации и операционной готовности.
-
Обеспечение соответствия инфраструктуры требованиям высокой доступности (HA) и нормативным стандартам.
-
-
Межкомандное взаимодействие:
-
Организация работы между инженерными командами, сетевыми инженерами, отделом compliance и партнерами для гарантии успешности развертываний.
-
Четкая и своевременная коммуникация о рисках, зависимостях и планах для руководства и технических специалистов.
-
Подготовка и ведение документации для внутренних и внешних аудитов.
-
Наш идеальный кандидат имеет:
-
Опыт управления проектами или программами в сфере IT, с фокусом на развертывание, производственные среды или надежность (SRE).
-
Глубокое понимание процессов управления инцидентами, анализа первопричин и планирования релизов.
-
Способность быстро погружаться в технические детали (распределенные системы, отказоустойчивость, резервирование) и транслировать их в конкретные планы действий.
-
Продвинутое владение Excel и инструментами управления проектами (Jira, Confluence, Smartsheet).
-
Отличные письменные и устные коммуникативные навыки на английском языке (работа в международной команде, отчетность для руководства).
-
Высокий уровень самоорганизации, проактивность и внимательность к деталям.
-
Готовность к работе в распределенной команде (часовые пояса США).
Будет серьезным преимуществом:
-
Опыт в телекоммуникациях, облачных сервисах (AWS/Azure/GCP) или с распределенными системами.
-
Знакомство с Kubernetes, контейнерами и микросервисными архитектурами.
-
Понимание принципов построения высокодоступных и отказоустойчивых систем (multi-region, multi-az).
-
Опыт работы в средах, регулируемых стандартами соответствия: SOC2, SOX, PCI, FCC.
Мы предлагаем:
-
Ключевую роль в технологической компании с мировым именем.
-
Работу над сложными и интересными задачами, оказывающими прямое влияние на бизнес.
-
Современный технологический стек и процессы.
-
Профессиональное развитие и карьерный рост.
-
Гибкий график и возможность удаленной работы.
-
Конкурентный уровень дохода и полный социальный пакет.