Обязанности:
- Разработка методологии и требования к данным, для обеспечения наблюдаемости
- Проводить анализ потоков данных и метрик в системах мониторинга и наблюдаемости;
- Проверять данные на полноту, корректность и соответствие требованиям, использовать подходы Data QA для обеспечения качества и достоверности данных;
- Детально разбирать инциденты и выявлять причины проблем с данными (исследование логов, трассировок, метрик, работа с ETL), документировать ошибки и вносить предложения по их устранению, вести структурированную базу знаний;
- Оформлять и поддерживать техническую документацию: схемы потоков, чек-листы, инструкции, описание архитектуры;
- Принимать участие во внедрении и поддержке стандартов и методик контроля качества данных (Data Reliability/Observability Best Practices);
- Участвовать в развитии и поддержке in-house платформы мониторинга: вносить улучшения, автоматизировать процессы контроля и проверки данных.
- Распространять и внедрять эти процессы и стандарты: делиться компетенциями, создавать обучающие материалы\инструкции, консультировать команды разработчиков и сопровождения;
Требования:
- Знаете, как сделать отказоустойчивый масштабируемый сервис
- Имеете опыт написания и ревью технической документации
- Имеете опыт коммуникации с разработчиками и бизнесом (объяснение trade-offs между reliability и feature dev)
- Обладаете системным мышлением и умением анализировать сложные сценарии отказа, выявлять корневые причины, находить способы их устранения
- Имеете практический опыт построения и внедрения quality gates в CI/CD процесс для управления рисками при развертывании: для предотвращения попадания нестабильных изменений в production
- Знаете, как определять SLI для сервиса, у которого нет исторических данных о надежности
- Знаете, как рассчитать композитные SLO для сервиса, зависящего от 10+ микросервисов
- Имеете опыт внедрения observability-as-code и alerting-as-code
Будет плюсом, если вы:
- Имеете практический опыт работы SRE
- Знаете, как сделать отказоустойчивый масштабируемый сервис
- Имеете опыт написания и ревью технической документации
- Обладаете системным мышлением и умением анализировать сложные сценарии отказа, выявлять корневые причины, находить способы их устранения