Обязанности:
- Разработка и оптимизация систем развёртывания ML-моделей;
- Повышение производительности, снижение latency и оптимизация затрат;
- Администрирование инфраструктуры поиска и обработки данных;
- Обеспечение надёжности и мониторинг производительности систем.
Требования:
- Опыт разработки production ML-сервисов от 4 лет;
-
Опыт написания custom Triton/CUDA kernels;
-
Опыт с Triton Inference Server;
- Знание методов оптимизации производительности и инференса;
- Практический опыт с Kubernetes и системами мониторинга;
- Английский язык для командной коммуникации.
Условия:
- Конкурентная заработная плата;
- Гибридный режим работы;
- Оплачиваемые отпуск и медстраховка;
- Предоставление техники и инструментов.