Компания DCS — это команда инженеров, исследователей и разработчиков, создающих решения на основе машинного обучения, генеративных моделей (LLM) и компьютерного зрения (CV). Мы работаем над продуктами в области автоматизации, анализа данных и внедрения ML-сервисов для корпоративных клиентов и хотим усилить команду опытным DevOps-инженером.
Чем предстоит заниматься:
1. Инфраструктура и развёртывание
-
Проектировать и настраивать инфраструктуру для ML-сервисов в облаках (AWS / GCP / Azure / Yandex Cloud / VK Cloud и др.).
-
Автоматизировать развёртывание вычислительных ресурсов (GPU/CPU-кластеры, контейнеры, serverless-функции) с помощью Terraform / Ansible / Pulumi.
-
Настраивать контейнеризацию (Docker) и оркестрацию (Kubernetes, Helm, ArgoCD).
-
Создавать CI/CD-пайплайны (GitLab CI/CD, GitHub Actions, Jenkins) для сервисов и моделей.
-
Разрабатывать и сопровождать Helm-чарты и конфигурации для автоматического деплоя.
2. MLOps и сопровождение моделей
-
Организовывать полный жизненный цикл моделей: обучение → упаковка → деплой → мониторинг → переобучение.
-
Настраивать и поддерживать ML-ориентированные хранилища артефактов (DVC, MLflow, W&B).
-
Поддерживать пайплайны подготовки данных и обучения моделей (Airflow, Kubeflow, Prefect).
-
Контролировать версии данных и моделей, управлять Docker-репозиториями (Harbor, ECR, GCR).
-
Настраивать мониторинг качества моделей (drift, latency, ошибки инференса).
3. Сетевое взаимодействие и интеграции
-
Настраивать безопасное взаимодействие сервисов (VPN, bastion-хосты, VPC, private endpoints).
-
Организовывать API-шлюзы, балансировщики, SSL/TLS, OAuth, SSO.
-
Настраивать обмен данными через REST/gRPC/WebSocket и интеграции с Kafka / RabbitMQ.
-
Взаимодействовать с инфраструктурой заказчика при деплое сервисов.
4. Надёжность, масштабируемость и безопасность
-
Настраивать отказоустойчивые и масштабируемые кластеры для LLM и CV-инференса.
-
Внедрять мониторинг, логирование и алертинг (Prometheus, Grafana, ELK, Loki, OpenTelemetry).
-
Оптимизировать ресурсы (GPU/CPU/память) и масштабировать системы под нагрузку.
-
Реализовывать политики безопасности и секрет-менеджмента (Vault, AWS Secrets Manager, KMS).
-
Настраивать резервное копирование и disaster-recovery.
5. Администрирование и эксплуатация
-
Администрировать Linux-сервера, сети и хранилища данных.
-
Поддерживать dev/stage/prod-окружения.
-
Вести документацию по инфраструктуре и процессам деплоя.
-
Автоматизировать рутинные задачи (bash/python-скрипты, Terraform modules, Ansible playbooks).
-
Оказывать техническую поддержку команде разработки и исследователям ML.
Мы ожидаем, что ты:
-
Имеешь опыт работы DevOps/SRE/Infra-инженером от 2 лет.
-
Уверенно работаешь с Docker, Kubernetes, Terraform, CI/CD.
-
Понимаешь основы MLOps и умеешь сопровождать ML-модели.
-
Имеешь опыт работы с облачными провайдерами (AWS, GCP, Yandex Cloud и др.).
-
Пишешь скрипты на Bash / Python.
-
Понимаешь сетевые протоколы, безопасность и интеграции.
Будет плюсом:
-
Опыт с MLflow / DVC / Airflow / Kubeflow.
-
Опыт оптимизации GPU-кластеров и работы с LLM-инференсом.
Мы предлагаем:
-
Формат: полностью удалённая работа.
-
Участие в ML-/LLM-проектах федерального уровня.
-
Возможность развиваться в области MLOps и работы с крупными моделями.
-
Команду сильных инженеров и исследователей.