билайн

Data Engineer

Не указана
  • Москва
  • От 3 до 6 лет
  • Python
  • PySpark
  • Spark
  • Hadoop

Сегодня Билайн — компания изменений, чутко реагирующая на потребности рынка и людей. А ещё Билайн — это команда, объединённая общими ценностями и общей целью — быть лидером телеком и digital рынков, предоставляя нашим клиентам новейшие продукты и услуги, а также сервис самого высокого уровня.

Сейчас у вас есть возможность присоединиться к лучшей команде в роли Data Engineer! Наша команда – это команда клиентского опыта. Мы по разным направлениям проводим аналитику метрик качества клиентского сервиса, находим проблемы и контролируем их устранение.

Итак, вам предстоит:

  • Проектирование, разработка и поддержка ETL/ELT-пайплайнов.
  • Интеграция с различными источниками данных (API, базы данных, файлы, очереди).
  • Оптимизация процессов обработки больших данных (10ТБ+).
  • Работа с распределёнными системами хранения и вычислений (Hadoop, Spark).
  • Настройка оркестрации и мониторинга пайплайнов в Airflow.
  • Поддержка и развитие хранилища (ClickHouse, HDFS, Postgresql)
  • Подготовка витрин данных для аналитиков и ML-команды.
  • Документация пайплайнов, best practices в команде.
  • Разработка инструментов для интеграции LLM в продукты (API, библиотеки и пр.)
  • Разработки агентов и агентных систем
  • Разработка баз знаний для RAG
  • Fine-tuning/адаптация LLM для специфичных задач/домен (PeFT, SFT).

Мы будем рады рассмотреть вашу кандидатуру, если у вас есть:

  • Опыт работы Data Engineer от 2 лет.
  • Опыт коммерческой разработки на Python (3.6+).
  • Опыт работы с PySpark и экосистемой Hadoop (HDFS, Yarn).
  • Понимание принципов работы распределённых вычислений и оптимизации Spark-джоб.
  • Практический опыт работы с Airflow (DAG’и, сенсоры, операторы, оптимизация).
  • Знания основ Machine Learning / Deep Learning
  • Глубокое понимание архитектуры Transformer.
  • Умение работать с большими объёмами данных (10ТБ+).
  • Знание SQL (в т.ч. оптимизации сложных запросов)
  • Опыт работы с системами контроля версий (у нас Git + Gitlab).

Будет плюсом:

  • Опыт CI/CD (у нас GitLab CI).
  • Знания в области Data Modeling (звёздная/снежинка, нормализация).
  • Навыки работы с JupyterHub, подготовка data notebooks.
  • Знакомство с ML-пайплайнами и особенностями подготовки данных для моделей.
  • Практический опыт fine-tuning языковых моделей (GPT-like, BERT-like и др.)
  • Если работали с потоковой обработкой данных.
  • Знакомы с инструментом NiFi.

Наш стек:

  • Scala / Python
  • Hadoop (hdfs, hive)
  • Doris, ClickHouse
  • Apache Spark
  • Airflow

Что мы предлагаем:

  • Трудоустройство в аккредитованную ИТ-компанию.
  • Сплоченную команду профессионалов, в которой можно не только успешно реализовывать проекты, но и перенимать опыт и развиваться.
  • Обучение, участие в интересных проектах и расширение профессиональной экспертизы: мы участвуем в конференциях, митапах, публикуемся на Хабр и т.д.
  • Конструктивную и открытую рабочую атмосферу.
  • Полис добровольного медицинского страхования, обслуживаемый в лучших клиниках, а также чек-ап для сотрудников 40+.
  • Страхование жизни, страхование от несчастных случаев и критических заболеваний, страхование выезжающих за рубеж.
  • Материальную помощь.
  • Детские подарки.
  • Доплату по листу нетрудоспособности.
  • Корпоративные скидки на товары и услуги от партнеров компании.
  • Служебную сотовую связь.
  • Кафетерий льгот — возможность самостоятельно выбрать дополнительные корпоративные льготы и бонусы (спорт, здоровье, обучение, путешествия, транспорт и др.). Доступно после испытательного срока.