билайн

Data Engineer

Не указана

Москва
От 3 до 6 лет

Python
PySpark
Spark
Hadoop

Сегодня Билайн — компания изменений, чутко реагирующая на потребности рынка и людей. А ещё Билайн — это команда, объединённая общими ценностями и общей целью — быть лидером телеком и digital рынков, предоставляя нашим клиентам новейшие продукты и услуги, а также сервис самого высокого уровня.

Сейчас у вас есть возможность присоединиться к лучшей команде в роли Data Engineer! Наша команда – это команда клиентского опыта. Мы по разным направлениям проводим аналитику метрик качества клиентского сервиса, находим проблемы и контролируем их устранение.

Итак, вам предстоит:

Проектирование, разработка и поддержка ETL/ELT-пайплайнов.
Интеграция с различными источниками данных (API, базы данных, файлы, очереди).
Оптимизация процессов обработки больших данных (10ТБ+).
Работа с распределёнными системами хранения и вычислений (Hadoop, Spark).
Настройка оркестрации и мониторинга пайплайнов в Airflow.
Поддержка и развитие хранилища (ClickHouse, HDFS, Postgresql)
Подготовка витрин данных для аналитиков и ML-команды.
Документация пайплайнов, best practices в команде.
Разработка инструментов для интеграции LLM в продукты (API, библиотеки и пр.)
Разработки агентов и агентных систем
Разработка баз знаний для RAG
Fine-tuning/адаптация LLM для специфичных задач/домен (PeFT, SFT).

Мы будем рады рассмотреть вашу кандидатуру, если у вас есть:

Опыт работы Data Engineer от 2 лет.
Опыт коммерческой разработки на Python (3.6+).
Опыт работы с PySpark и экосистемой Hadoop (HDFS, Yarn).
Понимание принципов работы распределённых вычислений и оптимизации Spark-джоб.
Практический опыт работы с Airflow (DAG’и, сенсоры, операторы, оптимизация).
Знания основ Machine Learning / Deep Learning
Глубокое понимание архитектуры Transformer.
Умение работать с большими объёмами данных (10ТБ+).
Знание SQL (в т.ч. оптимизации сложных запросов)
Опыт работы с системами контроля версий (у нас Git + Gitlab).

Будет плюсом:

Опыт CI/CD (у нас GitLab CI).
Знания в области Data Modeling (звёздная/снежинка, нормализация).
Навыки работы с JupyterHub, подготовка data notebooks.
Знакомство с ML-пайплайнами и особенностями подготовки данных для моделей.
Практический опыт fine-tuning языковых моделей (GPT-like, BERT-like и др.)
Если работали с потоковой обработкой данных.
Знакомы с инструментом NiFi.

Наш стек:

Scala / Python
Hadoop (hdfs, hive)
Doris, ClickHouse
Apache Spark
Airflow

Что мы предлагаем:

Трудоустройство в аккредитованную ИТ-компанию.
Сплоченную команду профессионалов, в которой можно не только успешно реализовывать проекты, но и перенимать опыт и развиваться.
Обучение, участие в интересных проектах и расширение профессиональной экспертизы: мы участвуем в конференциях, митапах, публикуемся на Хабр и т.д.
Конструктивную и открытую рабочую атмосферу.
Полис добровольного медицинского страхования, обслуживаемый в лучших клиниках, а также чек-ап для сотрудников 40+.
Страхование жизни, страхование от несчастных случаев и критических заболеваний, страхование выезжающих за рубеж.
Материальную помощь.
Детские подарки.
Доплату по листу нетрудоспособности.
Корпоративные скидки на товары и услуги от партнеров компании.
Служебную сотовую связь.
Кафетерий льгот — возможность самостоятельно выбрать дополнительные корпоративные льготы и бонусы (спорт, здоровье, обучение, путешествия, транспорт и др.). Доступно после испытательного срока.

Источник вакансии

Вернуться, к списку вакансий