Cloud.ru

Инженер L3 PaaS

Не указана
  • Москва
  • От 3 до 6 лет
  • PostgreSQL
  • Kubernetes
  • Linux
  • Ansible

Cloud․ru — провайдер облачных сервисов и ИИ-технологий. Мы делаем доступ к облакам и искусственному интеллекту простым и удобным.

В Cloud․ru есть больше 130 IaaS- и PaaS-сервисов, облачная платформа Cloud․ru Evolution на базе собственных разработок, а также цифровая среда Evolution AI Factory для работы с генеративным ИИ.

В связи с расширением , команда эксплуатации платформенных сервисов(PaaS) ищет опытного инженера со специализацией в облачных PaaS, который сможет эффективно и быстро решать инциденты и проблемы, а также работать над повышением надежности платформы.

Пул продуктов в зоне ответственности направления включает более 7 продуктовых групп:

  • Контейнеры: Managed Kubernetes, Container Apps, Artifact Registry, Container Security
  • Разработка: API gateway
  • Брокеры сообщений: Managed Kafka, Managed Corax
  • Базы данных: Managed OpenSearch, Managed PostgreSQL, Managed Pangolin, Managed DataGrid, Managed Redis, Managed ClickHouse
  • Инструменты разработчика: Workflow Studio, Repo
  • Платформа данных: Managed Airflow, Managed Trino, Managed Metastore, Managed ArenadataDB, Managed Spark, Managed BI
  • AI Factory: ML Inference, Foundation Models, Notebooks, ML Finetuning, Managed RAG, AI-агенты

Задачи:

  • Принимать участие в разворачивании и эксплуатации сервисов PaaS в prod и stage-окружениях;
  • Реагировать на инциденты и проблемы (переданные с L2) и оповещения мониторинга;
  • Проводить диагностику, выявлять причины сбоев и восстанавливать работу сервисов;
  • Участвовать в разборе инцидентов и поиске их причин, участвовать в написании postmortem, контролировать выполнение мер по предотвращению повторений инцидентов;
  • Создавать и поддерживать в актуальном состоянии документацию и инструкции для инженеров поддержки L2 и L3;
  • Вместе с SRE работать над повышением надёжности системы (мониторинг, алертинг, поиск/указание слабых мест и т.п.).

Требования:

  • Уверенные знания и опыт администрирования Linux;
  • Уверенные знания о контейнеризации и Kubernetes;
  • Опыт сопровождения критических информационных систем и инфраструктуры;
  • Опыт работы с инструментами автоматизации и управления конфигурациями (Ansible/Terraform/Puppet или другими).
  • Способность принимать взвешенные решения в критической ситуации и умение планомерно работать над поиском причины неисправности и её устранением;
  • Базовые знания в области сетевых технологий;
  • Опыт работы с системами контроля версий (Git) и CI/CD (Gitlab, Jenkins);
  • Умение работать с инструментами мониторинга и логирования.