Циан

Middle+ Data Engineer (Платформенная команда)

Не указана
  • Москва
  • Полная занятость
  • Удаленная работа
  • От 3 до 6 лет
  • Python
  • NoSQL
  • Apache Airflow
  • Greenplum
  • Spark

Платформа данных в Циане отвечает за улучшение опыта использования данных для решения бизнес-задач. Мы эффективно организуем большие объёмы данных - сейчас в нашем Data Lake хранится более 3ПБ. Мы также работаем над созданием удобных инструментов для реализации ETL и решения задач ML и аналитики.

Ищем Data engineer в команду разработки платформенных инструментов, чтобы вместе интегрировать эффективные решения по работе с данными с использованием современных технологий.

Вместе с нами вам предстоит:

  • прорабатывать архитектуру платформенных инструментов и работать над roadmap их развития. Примеры решений которые уже есть:

  1. Feature Store для хранения фичей для команды DS
  2. Data Catalog для сбора меты и построения data lineage
  3. Библиотека для интеграции Spark App с сервисами внутри компании
  • помогать бизнесу, аналитикам и ds решать их задачи при помощи данных

  • проводить исследования с целью оптимизации работы с данными

  • разрабатывать проекты по обмену данными с внешними заказчиками (например, Росреестр, операторы сотовой связи и др.)

Мы видим на этой позиции человека, который:

  • кодит на Python: основные типы и структуры данных, понимание концепций работы async кода и его отличий от классической модели, OOP, декораторы/генераторы/итераторы/context manager

  • имеет опыт работы с Hadoop стеком от 2 лет

  • верхнеуровнево понимает архитектуру работы HDFS: какие типы нод за что отвечают, как работает Erasure Coding

  • имеет опыт работы со Spark: может объяснить что такое драйвер и экзекьюторы, пояснить за ленивость и actions, как связаны RDD и Dataframe

  • работал с Kafka

У нас интересно, потому что:

  • нашим продуктом пользуется большое количество людей и с ростом аудитории растёт количество интересных задач

  • есть возможность поучаствовать в построении сервисов с нуля или интегрировать что-то новое. Мы всегда прислушиваемся к опыту наших коллег

  • нет зоопарка технологий и довольно понятный стек:

    1. Python 3.9/3.10

    2. Spark 3

    3. Yandex S3

    4. Greenplum, PostgreSQL

    5. Airflow 2.+

    6. NoSQL DB (Redis, Cassandra)

    7. Kafka

    8. Scala (есть небольшой процент задач по Spark Streaming)

  • мы постоянно работаем над автоматизацией рутинных процессов

Что мы предлагаем:

  • удаленную работу с возможностью приходить в офис в Москве, Санкт-Петербурге и Новосибирске. В офисе – кухни, оборудованные всем необходимым, а также снеки, фрукты, кофе и чай, бесплатная авто и вело парковки

  • рост и развитие: в первые месяцы у каждого сотрудника есть ментор, после появляется личный план развития и возможность прокачивать soft/ hard skills на практике, обучении, конференциях

  • ДМС с первого рабочего дня (со стоматологией, госпитализацией, страховкой выезжающего за пределы нашей страны)

  • 5 day off в год, помимо основного отпуска

  • кафетерий льгот Benefactory