Центральный банк Российской Федерации (Банк России)

Big Data Platform Engineer

Не указана

Санкт-Петербург
Полная занятость
Полный день
От 3 до 6 лет

Python
Big Data
Apache Airflow
Scala
Hadoop
Jupyter Notebook
CI/CD
NoSQL

О нашем продукте

1. Мы делаем Единое Хранилище данных по всем процессам Банка России. А это почти полный охват финансового рынка и всех связанных сущностей, требуемых для контроля и прогнозирования развития экономики в целом и участников в частности.

Основная задача – загрузить и получить на выходе максимально полные и достоверные данные по каждой сущности в удобном для дальнейшего использования виде.

2. Мы делаем приложения на базе Единого хранилища данных.

Обязанности:

консультирование заказчика с целью выбора инструментария Big Data экосистемы;
администрирование инструментария Big Data экосистемы;
оптимизация ETL-процедур обработки информационных массивов;
доработка/написание CI/CD-пайплайнов;
участие в развитие Big Data экосистемы;

Требования:

высшее техническое образование;
релевантный опыт не менее 3 лет;
знания по проектированию Хранилища данных;
знания современных тенденций и технологий Big Data (Hadoop, Spark, ClickHouse)
знания и практические навыки написания SQL-запросов, опыт оптимизации сложных запросов
опыт работы с одной из аналитических или реляционных СУБД: Oracle, Greenplum, Clickhouse, PostgreSQL, Postgres Pro или опыт работы со стеком Big Data (Hadoop/spark/hive) от 3-х лет
опыт работы с элементами современной Big Data экосистемы в качестве администратора, аналитика данных или специалиста по исследованию данных
навык работы со средствами версионного контроля
знание процесса непрерывного развертывания и опыт установки изменений в рамках конвейера CI/CD
опыт оценки реализации требований
отличное знание Python, PyTorch, Transformers (Hugging Faces);
умение работать с документацией и ее разработка;
навыки коммуникации с заказчиками, подрядчиками, разработчиками;
кластеризация: Apache Hadoop (HDP, CDP);
контейнеризация: Docker Swarm, Kubernetes;
CI/CD: Ansible, Jenkins, Gitlab;
технологии распределенных вычислений: Apache Spark, Apache Hive, Cloudera Impala;
IDE: JupyterLab., IntelliJ IDEA, VSCode;
ETL: Airflow;
языки программирования: Python, Scala.

Условия:

гибридный режим работы (50% - удаленный формат)
релокационный пакет.

Источник вакансии

Вернуться, к списку вакансий