
АНО Инфокультура
Data Engineer (Инженер данных (миддл)
- Django
- MongoDB
- PostgreSQL
- Gitlab
- REST API
- SOAP
- RPC
- Git
- DuckDB
- Clickhouse
- Dagster
- Python 3
- JSON lines
- Parquet
- XML
Требуется разработка и поддержание инфраструктуры данных для большого проекта озера данных, включающего себя сложные сценарии приема и обработки данных из разных источников.
Обязанности включают:
-
разработка и поддержание работы конвейеров данных
-
отладка и мониторинг конвейеров данных
-
автоматизация обработки и преобразования данных
Технологический стек: PostgreSQL, MongoDB, DuckDB, Dagster, Python 3
Формат работы: дистанционный / преимущественно дистанционный
Коммуникация: Gitlab и Телеграм.
В работе требуется значительная доля инициативности и самостоятельности в части предложения и исследования технических решений. В то же время, это работа в команде, то есть необходимы коммуникативные компетенции, чтобы решения были согласованными и учитывали общее положение дел.
Преимущества проекта:
- проект недавно стартовал, поэтому у него еще нет сложного и неповоротливого легаси
- большие фрагменты инфраструктуры, определяющей потоки данных, еще не имплементированы, поэтому можно экспериментировать и выбирать оптимальные решения
- аналогично с выбором программного обеспечения для управления жизненным циклом данных: можно выбрать предпочтительный вариант.
Требования:
- знание основных библиотек Python для работы с данными
- опыт работы автоматизации конвейеров данных и знание соответствующих программных инструментов
- представление об управлении качеством данных
- представление о возможностях отладки мониторинга
- понимание специфики форматов данных (JSON lines, Parquet, XML, CSV и тд.)
- понимание методов получения и поставки данных (как, например, S3, REST API, SOAP, RPC)
- знание английского языка на уровне, достаточном для чтения технической документации
- знание Git
- готовность осваивать новые технологии и разрабатывать индивидуальные технические решения под поставленные задачи.
Плюсами будут:
- опыт работы с данными из открытых источников и понимание их специфики
- представление о такой области, как "открытые данные"
- знакомство и опыт работы со стеком современных решений, таких как DuckDB и Clickhouse
Условия:-
Возможность работать дистанционно либо офис в центре Москвы
-
Пятидневка, с 9-00 до 18-00 или 10-00 до 19-00/по МСК/
-
Заработная плата по результатам собеседования
-
Оформление по ТК РФ
-
Медицинская страховка
-
Компенсация обучения по направлениям работы с данными, технологиями, ведению некоммерческих проектов
-
Большие перспективы для развития
-
Место работы - Москва (ближайшие метро: Чистые пруды/Тургеневская/Кузнецкий мост/Трубная).