
HeadHunter
Tech Lead — LLM Evaluation
- machine learning
- data science
- genai
- llm evaluation
- benchmarks
- human eval
- mt-bench
- langchain
- oss models
- prompt engineering
- system design
- Numpy
- pandas
- nlp
- reasoning
- a/b experiments
Мы ищем технического лидера, который поможет выстроить в компании системный подход к оценке качества LLM-моделей. Если вам интересно закладывать основу для устойчивого использования GenAI в продуктах — через бенчмарки, метрики и процессы, которым будут следовать десятки команд, и вы смотрите на ML не просто как на модели, а как на инструмент влияния на продукт — мы будем рады видеть вас в нашей команде.
Мы активно развиваем GenAI-направление в hh.ru. Уже сейчас в разных командах используются LLM-модели для генерации текстов, диалогов, классификации и анализа вакансий и резюме. Направление развивается стремительными темпами, и централизованная экспертиза по оценке качества моделей станет критически важной частью всей AI-инфраструктуры.
Обязанности:
-
Построение фреймворка оценки LLM-моделей и LLM-пайплайнов: бенчмарки, автоматизация, практики;
-
Разработка стандартов оценки и помощь другим командам в их применении;
-
Сравнение и анализ моделей от вендоров и open-source;
-
Организация процессов human и LLM-based оценки (включая асессорскую разметку и LLM-as-a-judge);
-
Анализ качества моделей/пайплайнов и их влияния на продуктовые метрики;
-
Оценка качества работы реальных GenAI-фичей на масштабе десятков миллионов пользователей.
Требования:
-
Опыт построения и внедрения систем оценки качества ML-моделей в продуктах (offline-метрики, human evaluation, A/B);
-
Понимание задач и методов NLP/LLM: генерация, классификация, ранжирование, reasoning и др.;
-
Опыт разработки или поддержки пайплайнов оценки (Python, ML-инфраструктура, автоматизация);
-
Навыки структурирования и сбора human-разметки, знание подходов LLM-as-a-judge;
-
Уверенное владение Python (numpy, pandas, sklearn, PyTorch), опыт с HuggingFace, LangChain и пр.;
-
Живой интерес к сфере GenAI, знание подходов к построению LLM-based систем (prompt engineering, RAG, агенты);
-
Готовность быть драйвером best practices внутри компании.
Будет плюсом
-
Участие в OSS-инициативах (Open LLM Leaderboard, MT-Bench, Arena, trlx и пр.);
-
Опыт работы с платформами краудсорс-разметки Яндекс Крауд, toloka.ai и др.;
-
Опыт обучения или внедрения LLM.
Условия:
-
Возможность выбора места работы: удаленно или из офиса;
-
Гибкий график рабочего дня;
-
Оформление в соответствии с ТК РФ, «Белая» заработная плата, выплачиваемая точно в срок;
-
Корпоративное ДМС с первого месяца работы (решаем вопросы со здоровьем быстро и удобно);
-
Возможность профессионального развития, обучение за счет компании, участие в специализированных конференциях.