
Т1
Разработчик ETL(Hadoop)
Не указана
- Git
- Linux
- Java
- Python
- Bash
- Hadoop
- Spark SQL
- KAfka,
- Hive
- Impala
- Hue
- Scala
- ETL / Self service ETL
Вместе с нами ты будешь:
- выполнение функциональных обязанностей в рамках проекта по Миграции Платформ Данных (Arenadata Hadoop)
- обеспечение загрузки необходимых данных в Data Lake или необходимые витрины данных
- проектирование и разработка, тестирование и внедрение ETL процессов, используя ETL Framework и конвейер данных
- реализация различных интеграций в гетерогенной среде с помощью Python/Spark
- оптимизация существующего кода и используемых платформ
- конфигурация потоков данных из систем источников, их мониторинг, своевременную модификацию, оптимизацию
- оптимизация конвейера данных и ETL-процессов для поддержания процессов проверки качества данных
- контейнеризация процессов загрузки/выгрузки данных в Data Lake
Какие знания и навыки для нас важны:
- опыт разработки на Java / Python / Spark / Scala
- понимание принципов модели распределенных вычислений
- опыт разработки ETL / Self service ETL процессов по наполнению данными Data Lake, формирование витрин данных на Hadoop желателен
- опыт решения ETL/data engineering задач
- опыт реализации интеграции в гетерогенных средах
- навыки работы с системами контроля версий / репозиториями кода на основе Git
- успешный опыт работы в команде от 7 человек
- понимание методологий Agile/Scrum
- знание Unix/Linux, навыки работы в shell
Будет преимуществом:
- опыт работы в роли разработчика на стеке Hadoop от 2-х лет
- опыт разработки приложений с использованием инструментария экосистемы Hadoop (Spark streaming, Hbase, Spark SQL, KAfka, Hive, Impala, Hue и т.д.)
- опыт развертывания Linux серверов/ контейнеров, использования скриптовых языков (Bash)
- базовые знания работы kerberos
- знание и опыт работы с инструментами DevOPS