Обязанности:
- Проектирование и оптимизация инфраструктуры инференса ML-моделей;
- Снижение задержек, повышение пропускной способности и оптимизация стоимости;
- Настройка и поддержка сервисов инференса и пайплайнов векторного поиска;
- Мониторинг метрик качества и стабильности сервисов.
Требования:
- Опыт работы с ML-системами в продакшене от 4 лет;
- Глубокое понимание оптимизации инференса и производительности;
- Уверенная работа с Kubernetes и инструментами мониторинга;
- Опыт написания Custom Kernels на Triton / CUDA
- Английский язык для коммуникации в команде.
Условия:
- Конкурентная заработная плата;
- Гибридный формат работы;
- Оплачиваемый отпуск и медицинская страховка;
- Предоставление необходимого оборудования и инструментов.