МегаФон

Data Engineer

Не указана
  • Екатеринбург
  • Полная занятость
  • Полный день
  • От 1 года до 3 лет
  • ETL
  • Clickhouse
  • PostgreSQL
  • Python
  • SQL

Проект - Антифрод, формат работы - офис на время испытательного срока

Чем предстоит заниматься

  • Проектирование, разработка, оптимизация и поддержка ETL процессов для загрузки данных из различных источников
  • Управление потоковой обработкой данных с использованием Apache Kafka (разработка продюсеров/консьюмеров, управление топиками, обеспечение надежности и отказоустойчивости)
  • Разработка и оптимизация структур данных, схем и запросов в PostgreSQL для операционных и транзакционных задач
  • Построение, администрирование и тонкая настройка ClickHouse кластеров для обеспечения высокой производительности аналитических запросов на больших объемах данных
  • Разработка и поддержка решений на базе ClickHouse (или связки PostgreSQL + ClickHouse)
  • Интеграция данных между PostgreSQL, Kafka, ClickHouse и другими компонентами инфраструктуры (API, очереди, S3)
  • Мониторинг производительности, отказоустойчивости и безопасности data pipeline и баз данных
  • Автоматизация процессов обработки данных и развертывания (CI/CD)
  • Взаимодействие с аналитиками, разработчиками и product owner'ами для понимания потребностей в данных и их реализации
  • Устранение неисправностей в pipeline данных и базах данных

Что для этого нужно

  • Опыт разработки и администрирования ClickHouse (знание особенностей движков таблиц, оптимизация запросов, кластеризация, репликация, шардирование)
  • Глубокое понимание и практический опыт работы с Apache Kafka, настройка и обеспечение надежности потоков данных
  • Опыт работы с PostgreSQL (написание сложных SQL-запросов, оптимизация производительности, понимание механизмов транзакций, репликации)
  • Понимание принципов построения ETL процессов
  • Знание SQL на продвинутом уровне
  • Опыт работы с одним из языков программирования: Python (предпочтительно), Golang
  • Понимание принципов DevOps (Docker, Kubernetes, Linux, CI/CD) применительно к инфраструктуре данных