red_mad_robot

MLOps Engineer

Не указана
  • Москва
  • Полная занятость
  • Полный день
  • От 3 до 6 лет

Что предстоит делать:

- Понимание принципов разработки AI-агентов:Агенты с использованием self-hosted LLM (Qwen, Mistral, LLaMA, Mixtral и др.).
- Продвинутые механики: Planning (планирование), Tool-usage (использование инструментов) и Memory (долговременная память).
- Участие в выборе архитектурных решений (мультиагентные системы, task orchestration).
Интеграция и RAG:
- Построение RAG (Retriever-Augmented Generation) пайплайнов на локальных моделях.
Интеграция агентов с внутренними источниками данных: векторные базы (Qdrant, Milvus, Faiss, ChromaDB), базы знаний и корпоративные API.
Развертывание и MLOps (LLMOps):
- Упаковка моделей и сервисов в Docker-контейнеры и их развертывание в Kubernetes (K8S).
- Развертывание и оптимизация инференса с помощью специализированных серверов (vLLM, Triton Inference Server, Ollama).
- Настройка и поддержка CI/CD пайплайнов для ML-моделей и сервисов агентов.
- Инфраструктура и эксплуатация (Ops):
- Управление GPU-кластерами; работа с NVIDIA container runtime.
- Обеспечение безопасности, изолированности и отказоустойчивости LLM-сервисов.
- Управление инфраструктурой как кодом (IaC) с помощью Terraform и Ansible.
- Внедрение и поддержка мониторинга (Prometheus stack), логирования, трейсинга и аудита поведения агентов.

От тебя:

- ​​​​​​​​​​​​​​Языки и фреймворки: Отличное знание Python. Практический опыт с LLM-фреймворками, такими как LangChain, LlamaIndex или Haystack.

- Опыт с LLM: Опыт работы и развертывания open-source LLM (Mistral, LLaMA, Falcon и т.д.) в on-premise среде.
- Концепции AI-агентов: Понимание концепций Tool-usage, Planning, Memory и Prompt Chaining.
RAG и Векторные БД: Опыт построения RAG-систем. Знание принципов работы и опыт применения векторных баз данных (Qdrant, Weaviate, Milvus, Faiss).
DevOps/Ops:
- Уверенный опыт работы с Docker и Kubernetes (K8S) в production.
Глубокие знания Linux и Network.
- Опыт построения CI/CD пайплайнов (GitLab CI, Jenkins и т.п.).
GPU и Инференс:
Навыки работы с GPU-инфраструктурой и трекинга ресурсов.
- Опыт работы с серверами инференса, такими как vLLM, Ollama или Triton.
- Мониторинг: Опыт настройки и использования Prometheus stack для мониторинга инфраструктуры и ML-сервисов.

Будет плюсом:

- Оптимизация моделей: Опыт fine-tuning или quantization моделей (LoRA, QLoRA, GGUF).
- Инфраструктура (IaC): Практический опыт с Terraform и Ansible.
- Распределенные системы: Понимание принципов распределенного обучения (Distributed learning) и технологий (NVLink, Infiniband).
- Языки: Опыт работы с Go (Golang) для написания высокопроизводительной инфраструктурной обвязки.
- Безопасность (Security): Опыт внедрения DevSecOps практик (SAST, DAST, управление секретами).
- ML: Базовые принципы классического машинного обучения: датасеты, временные ряды, NLP, принципы обучения классических “табличных” моделей, глубоких моделей и языковых трансформеров

Чего ждать от роботов
​​​​​​​
  • Работа в сильной команде, где ценят инициативу, договорённости и честную обратную связь. Влиться и освоиться тебе поможет ментор. Позже ты тоже сможешь стать ментором для других.

  • Развитие — наш пунктик: берёмся за сложные задачи, которые нас продвинут. Проводим школы и интенсивы, чтобы прокачаться. Зовём интересных гостей для развития кругозора. Пользуемся бесплатной электронной библиотекой.

  • Всё по-честному: у нас белая зарплата и оформление в штат с первого дня, прозрачная система развития с персональным планом и ДМС с хорошими условиями через 3 месяца работы.

  • И телу приятно: выбираем комфортный формат работы - удаленно из любого региона или гибрид в Москве в удобном БЦ рядом с парком им. Горького.