Мы в поиске Data Scientist в команду, занимающуюся применением DL подходов в задачах Lamoda. Наша цель – с помощью глубокого обучения научиться понимать стиль, сходство, атрибуты одежды, а также предпочтения миллионов пользователей.
Чем предстоит заниматься:
- Обучать модели глубокого обучения с фокусом на contrastive и metric learning;
- Развивать и применять подходы, позволяющие работать с данными различных модальностей, например CLIP и SigLIP;
- Обогащать атрибуты товаров: извлекать атрибуты из фотографий, описаний товаров, отзывов, генерировать описания с помощью нейронных сетей;
- Разрабатывать retrieval алгоритмы в различных задачах: визуальный поиск, поиск релеватного документа, поиск подходящего товара (Complete the Look);
- Обучать модели "чувствовать" моду: кластеризовать модные тренды, развивать алгоритмы комплементарных рекомендаций с фокусом на стили.
Стэк технологий: Big data (Hadoop, PySpark, Hive), Python, Catboost, Airflow, Docker, SQL, PyTorch.
Почему у нас классно:
- Мы аккредитованная IT-компания;
- Хорошо выстроенные процессы: квартальное планирование по методологии OKR, двухнедельные спринты, регулярные стендапы и проектные встречи для синхронизации;
- Сильная команда middle и senior специалистов, развитое DS-сообщество, где есть возможность обмениваться знаниями на внутренних митапах;
- У нас представлен полный жизненный цикл разработки data-driven продуктов с применением ML — от идеи и генерации гипотез до запуска АБ тестов. В части разработки онлайн-сервисов и деплоя моделей нам помогает команда инженеров.
Мы ожидаем:
- Опыт в области анализа данных и машинного обучения (от 2 лет);
- Опыт работы с SQL, Hadoop, Hive, Spark;
- Владение Python, Linux, методами работы с большими данными;
- Опыт применения Deep Learning в задачах Computer Vision, NLP;
- Опыт работы с фреймворками глубокого обучения (мы используем PyTorch);
- Знания теории вероятностей и математической статистики; машинного обучения, прогнозного моделирования и методов статистического анализа; алгоритмов и структур данных;
- Высшее образование в области прикладной математики, информационных технологий, информатики и т.п;
- Английский язык на уровне технического чтения.
Как мы работаем:
- Пишем на Python 3.6+ и PySpark 3.0;
- Для ресерча доступны два сервера (80 cores, 650Gb RAM), на которых развернут JupyrerHub и есть доступ к Hadoop-кластеру;
- Код с логикой ML-пайплайнов упаковываем в Docker и выкатываем, используя CI/CD-инструменты с запуском code style проверок и тестов;
- Используем Airflow для управления ML-пайплайнами и запуском их по расписанию;
- В командах есть культура code review как для изменений по части продакшен-пайплайнов, так и для ресерч-задач;
- Регулярно проводим командные брейнштормы с целью генерации новых идей по развитию наших data-driven продуктов;
- В компании внедрена культура принятия решений на основании данных и все изменения тестируем через a/b эксперименты.