Центральный банк Российской Федерации (Банк России)

Big Data Platform Engineer

Не указана
  • Санкт-Петербург
  • Полная занятость
  • Полный день
  • От 3 до 6 лет
  • Python
  • Big Data
  • Apache Airflow
  • Scala
  • Hadoop
  • Jupyter Notebook
  • CI/CD
  • NoSQL

О нашем продукте

1. Мы делаем Единое Хранилище данных по всем процессам Банка России. А это почти полный охват финансового рынка и всех связанных сущностей, требуемых для контроля и прогнозирования развития экономики в целом и участников в частности.

Основная задача – загрузить и получить на выходе максимально полные и достоверные данные по каждой сущности в удобном для дальнейшего использования виде.

2. Мы делаем приложения на базе Единого хранилища данных.

Обязанности:

  • консультирование заказчика с целью выбора инструментария Big Data экосистемы;
  • администрирование инструментария Big Data экосистемы;
  • оптимизация ETL-процедур обработки информационных массивов;
  • доработка/написание CI/CD-пайплайнов;
  • участие в развитие Big Data экосистемы;
Требования:
  • высшее техническое образование;
  • релевантный опыт не менее 3 лет;
  • знания по проектированию Хранилища данных;
  • знания современных тенденций и технологий Big Data (Hadoop, Spark, ClickHouse)
  • знания и практические навыки написания SQL-запросов, опыт оптимизации сложных запросов
  • опыт работы с одной из аналитических или реляционных СУБД: Oracle, Greenplum, Clickhouse, PostgreSQL, Postgres Pro или опыт работы со стеком Big Data (Hadoop/spark/hive) от 3-х лет
  • опыт работы с элементами современной Big Data экосистемы в качестве администратора, аналитика данных или специалиста по исследованию данных
  • навык работы со средствами версионного контроля
  • знание процесса непрерывного развертывания и опыт установки изменений в рамках конвейера CI/CD
  • опыт оценки реализации требований
  • отличное знание Python, PyTorch, Transformers (Hugging Faces);
  • умение работать с документацией и ее разработка;
  • навыки коммуникации с заказчиками, подрядчиками, разработчиками;
  • кластеризация: Apache Hadoop (HDP, CDP);
  • контейнеризация: Docker Swarm, Kubernetes;
  • CI/CD: Ansible, Jenkins, Gitlab;
  • технологии распределенных вычислений: Apache Spark, Apache Hive, Cloudera Impala;
  • IDE: JupyterLab., IntelliJ IDEA, VSCode;
  • ETL: Airflow;
  • языки программирования: Python, Scala.
Условия:
  • гибридный режим работы (50% - удаленный формат)
  • релокационный пакет.