DCS

DevOps-инженер (ML/LLM/CV)

Не указана
  • Москва
  • Полная занятость
  • Удаленная работа
  • От 1 года до 3 лет
  • Docker
  • Kubernetes
  • Grafana
  • Linux
  • Python

Компания DCS — это команда инженеров, исследователей и разработчиков, создающих решения на основе машинного обучения, генеративных моделей (LLM) и компьютерного зрения (CV). Мы работаем над продуктами в области автоматизации, анализа данных и внедрения ML-сервисов для корпоративных клиентов и хотим усилить команду опытным DevOps-инженером.

Чем предстоит заниматься:

1. Инфраструктура и развёртывание

  • Проектировать и настраивать инфраструктуру для ML-сервисов в облаках (AWS / GCP / Azure / Yandex Cloud / VK Cloud и др.).

  • Автоматизировать развёртывание вычислительных ресурсов (GPU/CPU-кластеры, контейнеры, serverless-функции) с помощью Terraform / Ansible / Pulumi.

  • Настраивать контейнеризацию (Docker) и оркестрацию (Kubernetes, Helm, ArgoCD).

  • Создавать CI/CD-пайплайны (GitLab CI/CD, GitHub Actions, Jenkins) для сервисов и моделей.

  • Разрабатывать и сопровождать Helm-чарты и конфигурации для автоматического деплоя.

2. MLOps и сопровождение моделей

  • Организовывать полный жизненный цикл моделей: обучение → упаковка → деплой → мониторинг → переобучение.

  • Настраивать и поддерживать ML-ориентированные хранилища артефактов (DVC, MLflow, W&B).

  • Поддерживать пайплайны подготовки данных и обучения моделей (Airflow, Kubeflow, Prefect).

  • Контролировать версии данных и моделей, управлять Docker-репозиториями (Harbor, ECR, GCR).

  • Настраивать мониторинг качества моделей (drift, latency, ошибки инференса).

3. Сетевое взаимодействие и интеграции

  • Настраивать безопасное взаимодействие сервисов (VPN, bastion-хосты, VPC, private endpoints).

  • Организовывать API-шлюзы, балансировщики, SSL/TLS, OAuth, SSO.

  • Настраивать обмен данными через REST/gRPC/WebSocket и интеграции с Kafka / RabbitMQ.

  • Взаимодействовать с инфраструктурой заказчика при деплое сервисов.

4. Надёжность, масштабируемость и безопасность

  • Настраивать отказоустойчивые и масштабируемые кластеры для LLM и CV-инференса.

  • Внедрять мониторинг, логирование и алертинг (Prometheus, Grafana, ELK, Loki, OpenTelemetry).

  • Оптимизировать ресурсы (GPU/CPU/память) и масштабировать системы под нагрузку.

  • Реализовывать политики безопасности и секрет-менеджмента (Vault, AWS Secrets Manager, KMS).

  • Настраивать резервное копирование и disaster-recovery.

5. Администрирование и эксплуатация

  • Администрировать Linux-сервера, сети и хранилища данных.

  • Поддерживать dev/stage/prod-окружения.

  • Вести документацию по инфраструктуре и процессам деплоя.

  • Автоматизировать рутинные задачи (bash/python-скрипты, Terraform modules, Ansible playbooks).

  • Оказывать техническую поддержку команде разработки и исследователям ML.

Мы ожидаем, что ты:

  • Имеешь опыт работы DevOps/SRE/Infra-инженером от 2 лет.

  • Уверенно работаешь с Docker, Kubernetes, Terraform, CI/CD.

  • Понимаешь основы MLOps и умеешь сопровождать ML-модели.

  • Имеешь опыт работы с облачными провайдерами (AWS, GCP, Yandex Cloud и др.).

  • Пишешь скрипты на Bash / Python.

  • Понимаешь сетевые протоколы, безопасность и интеграции.

Будет плюсом:

  • Опыт с MLflow / DVC / Airflow / Kubeflow.

  • Опыт оптимизации GPU-кластеров и работы с LLM-инференсом.

Мы предлагаем:

  • Формат: полностью удалённая работа.

  • Участие в ML-/LLM-проектах федерального уровня.

  • Возможность развиваться в области MLOps и работы с крупными моделями.

  • Команду сильных инженеров и исследователей.