МТС

Разработчик-исследователь/ Researcher [ASR, TTS, VC] (MWS AI)

Не указана

Москва
От 3 до 6 лет

Research And Development
Английский — B2 — Средне-продвинутый

MWS AI — это часть экосистемы МТС Web Services, где создаются AI-решения будущего.

Мы разрабатываем передовые системы голосового перевода (voice-to-voice translation), способные мгновенно преобразовывать речь с одного языка в речь на другом — без утраты интонации, темпа и естественности. Наряду с этим, наши голосовые ассистенты и чат-боты отвечают на запросы клиентов. Объединяя сильнейших разработчиков, суперкомпьютерную инфраструктуру и прорывные исследования, мы делаем коммуникацию между людьми и бизнесом свободной от языковых барьеров.

Чем предстоит заниматься:

Проводить исследования в области voice-to-voice translation, speech representation learning, multilingual TTS/ASR и языковой инвариантности голоса
Разрабатывать и оптимизировать архитектуры моделей, способных сохранять говорящего, интонацию и стилистику речи при переводе
Проектировать и реализовывать real-time streaming pipelines для голосового перевода с поддержкой chunked/streaming inference
Проводить масштабные эксперименты, оценивать качество моделей по объективным и субъективным метрикам (например, MOS), и подавать результаты на ведущие конференции (Interspeech, NeurIPS, ACL, ICML, ICLR и др.)
Работать в тесной связке с другими командами MWS AI

Что мы ожидаем от кандидата:

Глубокое понимание методов глубокого обучения, особенно в контексте обработки речи (ASR, TTS, VC, speech translation)
Опыт работы с нейросетевыми архитектурами для речи: Conformer, FastSpeech, Whisper, MAVE и др.
Опыт работы с аудиоданными: форматы, препроцессинг, выравнивание, аугментация
Опыт проектирования low-latency inference pipelines: streaming input/output, chunked processing, dynamic batching, memory pooling
Готовность заниматься high-risk, high-impact исследованиями, где отсутствуют готовые решения и бенчмарки
Желание публиковать научные работы и вносить вклад в развитие продуктов компании
Хорошее знание английского языка (устная и письменная речь) на уровне не ниже B2

Преимуществом будут:

Опыт работы с многоязычными аудио-датасетами, особенно с русским языком
Знание инструментов для обработки и анализа речи: librosa, torchaudio, ESPnet, speechbrain, fairseq
Опыт в оптимизации инференса моделей
Публикации на топ-конференциях по речевым технологиям и ИИ (Interspeech, NeurIPS, ACL, EMNLP, ICLR и др.)
Участие в open-source проектах, связанных с речью

Что мы предлагаем:

Атмосферу стартапа и участие в инновационных проектах в области AI
Комфортный офис в 5 минутах пешком от метро Курская/Чкаловская (Москва)
Медицинскую страховку с 1 месяца, включающую стоматологию, страхование жизни и здоровья в поездках за рубеж. А еще можно застраховать родственников с корпоративной скидкой
Компенсацию мобильной связи
Участие во внешних IT конференциях и обучающих программах
Полезные курсы и вебинары в корпоративном университете и электронные библиотеки
Единую подписку МТС Premium — KION light в онлайн-кинотеатре KION, сервис МТС Music, 30 дней бесплатного пользования подпиской OZON Premium
Скидки и предложения от партнеров на фитнес, занятия английским и прочее

Источник вакансии

Вернуться, к списку вакансий