Мы входим в состав Национальной медиа группы и создаем цифровые решения и платформы для медиа бизнеса.
Мы поставляем продукты на базе больших данных и технологий машинного обучения.
А также оптимизируем процессы для повышения эффективности медиа бизнеса, стремимся к цифровой зрелости.
Ищем ML - инженера.
Тебя ждет:
- Создание датасетов для ML моделей:
- исследование источников данных (бизнес и системный анализ)
- формирование датасетов
- Создание ELT/ETL пайплайнов для получения данных
- Полный жизненный цикл ML моделей:
- обучение и валидация
- развертывание инференса
- интеграция с целевыми информационными системами
- визуализация результатов в BIмониторинг моделей
- Мониторинг ML инфраструктуры
- Полный жизненный цикл LLM продуктов:
- развертывание LLM инференса
- развертывание RAG
- загрузка данных в RAG
- fine-tuning LLM
Разработка и оптимизация промптов для LLM
Разработка проектных документов по перечисленным направлениям
Разработка, доработка, адаптация и внедрение ПО перечисленным направлениям
Разработка эксплуатационной и технической документации на созданные решения
Мы ожидаем от тебя:- Высшее образование (техническое)
- Опыт работы по специальности от 3-х лет
- Понимание, опыт работы, наличие реализованных коммерческих проектов по следующим позициям:
Программирование:
- Python
- Базовые библиотеки
- Базовые библиотеки визуализации
- Базовые библиотеки машинного обучения
- Scikit-learn
- Catboost
- PyTorch
- XGBoost (будет плюсом)
- FastAPI (опыт разработки сервера с REST API)
- Swagger (будет плюсом)
- Django (будет плюсом)
- Bash
- Java (будет плюсом)
ML:
- Базовые знания теории вероятностей, математической статистики и линейной алгебры
- Классические ML модели
- Опыт создания с нуля классических ML моделей для решения задач классификации, регресии и кластеризации
- Понимание основных проблем возникающих при обучении классических ML моделей и способов борьбы с ними
- Опыт самостоятельной сборки инференса ML модели в Docker контейнер
- Опыт работы со всеми этапами жизненного цикла классических ML моделей
- Большие языковые модели
- Опыт prompt engineering
- Понимание базовых архитектур LLM
- Знание актуальных свободно распространяемых LLM, их сильных и слабых сторон
- Опыт развертывания с нуля инференса LLM
- Опыт создания с нуля RAG
- Понимание концепции Model Context Protocol (будет плюсом)
- Опыт fine-tuning LLM (будет плюсом)
Стек:
ОС + контейнеризация:
- Linux
- Windows
- Docker
- K8s (будет плюсом)
СУБД:
- MSSQL
- PostgreSQL
- Clickhouse
- GreenPlum (будет плюсом)
Средства работы с СУБД:
- dbt
Планировщики
- Airflow
- BI
- Superset (будет плюсом)
- Tableau (будет плюсом)
Брокеры сообщений:
- RabbitMQ
- Kafka (будет плюсом)
Распределенные файловые системы:
- S3
- HDFS (будет плюсом)
Понимание базовых форматов файлов стека Big Data и опыт работы с ними
Spark + pySkark (будет плюсом)
Мы предлагаем:
- Оформление в соответствии с ТК РФ, бессрочный трудовой договор
- Финансовые условия обсуждаются на собеседовании
- График работы 5/2, с 10:00 до 19:00, в пятницу сокращенный рабочий день до 18:00
- Гибридный формат работы, возможна полная удаленка на территории РФ
- Комфортабельный офис с кухнями и зонами отдыха в пешей доступности от ст. м. Тульская
- ДМС после испытательного срока (3 мес.)
- Оплата корпоративного питания
- Работа в команде профессионалов, увлеченных своим делом и интересные задачи;
- Скидки для сотрудников в компаниях - партнерах (фитнес-центры, салоны красоты и т.д.