Мы ищем Middle+ DevOps Engineer для поддержки и развития инфраструктуры в Яндекс Cloud. Основная задача — участие в настройке CI/CD, мониторинга, логирования и конфигурирования RabbitMQ под нагрузку, а также работа в команде с Senior DevOps над проектированием отказоустойчивой архитектуры.
Чем предстоит заниматься:
- Чем предстоит заниматься:
- Участие в управлении и оптимизации облачной инфраструктуры в Яндекс Cloud.
- Настройка динамического выделения ресурсов и масштабирования сервисов.
- Внедрение и поддержка Infrastructure as Code (IaC).
- Развитие и поддержка CI/CD процессов (GitLab CI/CD).
- Конфигурирование и поддержка RabbitMQ под нагрузку.
- Настройка мониторинга и алертинга (Grafana, Loki, Tempo, Sentry).
- Участие в проектировании отказоустойчивых архитектур вместе с Senior DevOps.
- Поддержка команд разработки (PHP FPM/CLI, Node.js, Next.js, React).
- Поиск и устранение узких мест в инфраструктуре.
- Внедрение и поддержка практик SRE (Service Level Objectives, Error Budgets, Postmortems).
- Автоматизация процессов выявления и устранения инцидентов.
- Оптимизация производительности и надёжности сервисов.
- Разработка и внедрение инструментов для повышения наблюдаемости систем (observability).
- Анализ инцидентов, построение метрик доступности и стабильности.
Требования:
- Опыт работы с Kubernetes и Docker.
- Опыт работы с GitLab CI/CD.
- Навыки администрирования RabbitMQ (желательно опыт работы с нагрузкой).
- Базовый опыт работы с облачными провайдерами (желательно Яндекс Cloud).
- Опыт работы с базами данных: MariaDB, Redis (кластеризация будет плюсом).
- Навыки работы с системами мониторинга (Grafana, Loki, Tempo, Sentry).
- Опыт построения CI/CD процессов.
- Понимание принципов отказоустойчивой и масштабируемой архитектуры.
- Понимание концепций SLO/SLA, Error Budget и Incident Management.
- Навыки построения систем наблюдаемости (tracing, metrics, logging).
Будет плюсом:
- Опыт работы с ClickHouse.
- Опыт оптимизации стоимости облачных решений.
- Знание скриптовых языков (Python/Bash/Go).
- Опыт работы с высоконагруженными системами.
- Опыт внедрения SRE-практик в продакшн-среде.
- Навыки автоматизации рутинных задач и self-healing решений.
Мы предлагаем:
- Оформление по ТК/ИП (ваш выбор)
- Отпуск 28 календарных дней
- Работу с современным стеком и интересными задачами.
- Возможность профессионального роста до уровня Senior.
- Гибкий график и удалённый формат.
- Дружную команду и открытость к инициативам.