Сравни

Инженер по данным

Не указана
  • Москва
  • Полная занятость
  • Удаленная работа
  • От 3 до 6 лет
  • Python
  • SQL
  • Greenplum
  • Clickhouse
  • Apache Spark
  • Apache Kafka

Сравни.ру – финансовый супермаркет, мы создаем удобные сервисы и рекомендации, для того чтобы помочь людям принимать правильные решения при выборе банковских и страховых продуктов — ОСАГО, страховок путешественника, страхования недвижимости, Каско, вкладов, кредитов, кредитных карт или подобрать лучший вариант ипотеки. Мы первыми в Рунете придумали и запустили сервисы оформления электронного ОСАГО и подбора кредита.

В 2025 году вошли в список ТОП-30 самых дорогих компаний Рунета по версии Forbes.

Сейчас у нас:

  • 18 млн уникальных пользователей в месяц

  • 8 000 предложений от банков и страховых компаний

  • 140 000 отзывов о банках и страховых компаниях

  • более 3000 оформленных страховок в день

В чем ценность вакансии:

  • Построение нового DWH с нуля с полноценным R&D и использованием лучших инструментов и лучших архитектурных подходов

  • Возможность самостоятельно реализовать сервисы “под ключ” от R&D до выпуска в прод

  • Горизонтальная команда, где мнение и опыта каждого участника влияет на реализацию всего проекта.

  • При необходимости, нас будут консультировать лучшие специалисты и архитекторы на рынке

Основной стек технологий:

  • Ядро хранилища данных - Greenplum.
  • Быстрая аналитика - Clickhouse.
  • Модель данных - Двухслойная: raw layer + mart layer (flat tables).
  • Объем данных в сжатом виде - 20 ТБ.
  • Оркестратор ELT-процессов: Argo Workflows.
  • IaC: Terraform.
  • Хранилище sensitive данных - hashi corp vault.
  • CI/CD и GitOps: GitHub Actions, Argo CD.
  • Мониторинг, алертинг и логирование: Grafana, Grafana OnCall, Victoria Metrics, OpenSearch.
  • Data Lake: Yandex Cloud Object Storage
  • Batch процессы для raw слоя: Spark + Argo Workflows.
  • Streaming: Kafka, Kafka connect (avro + schema registry), коннекторы Debezium.
  • Spark structured streaming для доставки данных в сырую зону в greenplum.
  • Инструмент формирования витрин данных - dbt.
  • BI система: Apache Superset.
  • Более 100 активных пользователей DWH ежедневно работают с витринами данных

Что предстоит делать:

  • R&D по ключевым частям платформы: качество данных, real-time, витрины, озёра и т.п.
  • Разработка пайплайнов обработки (ELT)
  • Интеграция с источниками, настройка Kafka-коннекторов
  • Написание заданий на Spark для потоковой загрузки в DWH и Data Lake
  • Разработка Python-фреймворка для управления всей платформой данных
  • Построение DDS-слоя и фреймворка для моделирования данных
  • Реализация архитектуры обработки по моделям lambda/kappa
  • CI/CD пайплайны, автотесты, поддержка стабильной доставки
  • Участие в развитии культуры работы с данными в компании

Требования:

  • Опыт работы Data Engineer от 3 лет
  • Уверенный Python
  • Опыт с Greenplum, ClickHouse, Spark, Kafka
  • Отличное знание SQL и умение оптимизировать запросы
  • Понимание, как устроены DWH и Data Lake

Будет плюсом:

  • Знание, как устроены высоконагруженные системы
  • Опыт с Java/Scala, Kubernetes/Helm
  • Понимание data governance-процессов: качество, lineage и т.д.
  • Понимание контейнеризации и CI/CD

Что мы предлагаем:

  • Конкурентную зарплату;

  • Развитую бонусную систему;

  • ДМС, включая стоматологию (в лучших клиниках Москвы) и страхование жизни,

  • Оплату посещения профильных конференций;

  • Оплату профильных курсов;

  • Холодильник с едой в офисе;

  • Пицца/пироги/суши каждую пятницу, вечера национальных кухонь;

  • Компенсацию спортзала;

  • Современную технику;

  • Покупку профильной литературы;

  • Социальная ответственность: материальная помощь, при рождении ребёнка;

  • Корпоративные мероприятия и тимбилдинги (картинг, пейнтбол, лазертег и др.);

  • Современный офис с видом на всю Москву (прямо у метро Римская/Площадь Ильича); (2 минуты пешком от метро).