Обязанности:
- Разработка, оптимизация и сопровождение высоконагруженных ETL процессов на базе Apache Spark
- Реализация потоковой обработки данных (Spark Streaming, Kafka)
- Проектирование и реализации масштабируемых аналитических хранилищ данных
- Автоматизация процессов с использованием Airflow
- Настройка CI/CD процессов, поддержка стабильной работы проектов, мониторинг
- Оптимизация запросов и структур данных, работа с планами запросов
- Взаимодействие с бизнесом для трансформации требований
- Обеспечение безопасности и качества кода
Требования:
- Опыт разработки на Python 3 (Python 3.5+), PySpark
- Опыт работы с Apache Spark (RDD, DataFrame, SparkSQL, Structured Streaming)
- Знания SQL (PostgreSQL, ClickHouse, Greenplum)
- Опыт с Kafka, Airflow (динамические DAGи, кастомные операторы)
- Опыт работы с Linux, Docker и Kubernetes
- Навыки оптимизации запросов, понимание планов выполнения
- Опыт построения отказоустойчивых масштабируемых решений
Стэк технологий:
- Python, PySpark
- Apache Spark, Apache Kafka
- SQL (Postgres, ClickHouse, Greenplum)
- Docker, Kubernetes (K8S)
- CI/CD инструменты (GitLab CI, Jenkins)
- Мы являемся аккредитованной ИТ-компанией
- Оформление в соответствии с ТК РФ
- Индексация дохода по результатам оценки работы (оценка 360 - не реже одного раза в год)
- ДМС (+Стоматология) после испытательного срока
- Обучение и сертификация за счет компании – инвестиции в ваше развитие
- Возможность работать удаленно
- Прозрачность в вопросах карьерного планирования и прогнозирования дохода
- Возможность ротации между проектами для расширения профессионального опыта
- Корпоративные мероприятия, тимбилдинги и скидки от партнеров – приятные бонусы для наших сотрудников