Мы делаем продукт для миллионов пользователей и активно развиваем data-driven подход: запускаем десятки A/B-экспериментов, используем множество источников данных и витрин, а команда инженеров данных помогает всему этому работать быстро, надёжно и масштабируемо.
Сейчас мы ищем Data Engineer в команду рекомендаций. Это направление напрямую влияет на пользовательский опыт и эффективность ML-моделей. У нас получится поработать как с классическим batch-ETL, так и со стриминговой обработкой данных в реальном времени.
Что предстоит делать:
-
поддерживать и развивать batch ETL-пайплайны на Airflow для аналитических витрин и ML-моделей;
-
работать с потоковой обработкой: Spark Streaming, Kafka, MongoDB;
-
развивать feature store - добавлять новые фичи и интегрировать данные для моделей;
-
оптимизировать и документировать пайплайны, настраивать мониторинг.
Наш стек:
- ClickHouse
- Airflow
- Spark (Spark Streaming, PySpark, Spark SQL)
- Kafka
- MongoDB
- Hive
- S3
- DataHub
Требования:
-
уверенное знание Python и SQL;
-
опыт построения ETL-процессов с использованием перечисленного стека;
-
будет плюсом: опыт работы с CI/CD, Docker, Grafana.
Условия:
- работа в сильной команде, состоящей из топовых аналитиков, аналитиков-разработчиков и инженеров;
- топовое оборудование и весь необходимый софт;
- официальное трудоустройство;
- ДМС со стоматологией, офисный врач, доплата больничного листа, корпоративные скидки;
- льготные условия ипотеки в рамках зарплатного проекта;
- бесплатная подписка на сервисы партнеров.
- насыщенная корпоративная жизнь.