ML Engineer (MusicSearch)

03 июля 2026 • г Москва • ПАО Сбербанк • Информационные технологии:Дата-сайентист

Команда Поиска ищет ML Engineer в MusicSearch. Мы создаём поисковый движок, который позволяет ассистенту на устройствах находить нужный трек, исполнителя, плейлист или подкаст.


Ты будешь работать с архитектурой поискового движка, индексом, ML-моделями ранжирования и персонализацией выдачи. Основной фокус роли — развитие ML-движка поиска и внедрение современных подходов в ранжировании и retrieval: гибридный retrieval, BERT/Transformer-модели, Learning to Rank, персонализация, OpenSearch/Elasticsearch, CatBoost, Airflow и PySpark.

Обязанности
  • участвовать в улучшении качества поиска: от офлайн-метрик ранжирования до стабильности ранжирования в проде
  • разрабатывать и внедрять модели ранжирования Learning to Rank для повышения релевантности поисковой выдачи
  • обучать и улучшать LTR-модели на базе классического ML и градиентного бустинга: CatBoost, LightGBM или XGBoost
  • работать с BERT/NLP-моделями для векторизации запросов, документов и объектов музыкального каталога
  • развивать гибридный retrieval-пайплайн: lexical search на базе OpenSearch/Elasticsearch, dense retrieval на BERT/Transformer-эмбеддингах и ML-reranking на LTR-моделях
  • участвовать в обновлении и перестроении индекса для улучшения качества и скорости поиска
  • разрабатывать запросно-независимые и запросно-зависимые фичи для ранжирования персонализирующие фичи на основе действий пользователя, истории прослушиваний, кликов, пропусков, лайков и других сигналов
  • развивать пайплайны оценки и переоценки качества поиска
  • готовить обучающие датасеты для ранжирования на основе логов, кликов, прослушиваний, ручной разметки и implicit feedback
  • участвовать в A/B-тестах поисковых изменений и анализе результатов
  • развивать ML-пайплайны в Airflow
  • работать с большими объёмами логов и фичей с использованием PySpark
  • взаимодействовать с командой инфраструктуры при внедрении моделей ранжирования и новых фичей в production
Требования

• практический опыт в задачах ранжирования / поиска / рекомендаций / NLP от 3 лет


• опыт работы с классическим ML и градиентным бустингом: CatBoost, LightGBM или XGBoost


• опыт feature engineering для задач ранжирования, поиска или рекомендаций


• опыт работы с BERT / Transformer-моделями для NLP-задач: эмбеддинги, семантический поиск, matching query-document или reranking


• понимание принципов lexical search, dense retrieval и ML-reranking


• понимание, какие метрики применять в разных классах поисковых задач


• опыт работы с Airflow или другими оркестраторами задач для ML/data-пайплайнов


• опыт работы с большими данными: PySpark, SQL или аналогичные инструменты


• уверенное владение Python, умение писать читаемый и поддерживаемый код


Будет плюсом:


• опыт production-эксплуатации моделей ранжирования


• опыт построения гибридного или векторного поиска


• опыт с retrieval-частью RAG-систем: чанкинг, эмбеддинги, retriever, reranker, оценка релевантности


• опыт A/B-тестирования и оценки качества поиска


• понимание типов событий и логов вокруг поиска, создание фичей на их основе


• опыт работы с OpenSearch / Elasticsearch в highload-системах


• опыт работы с векторным поиском и ANN-индексами: FAISS, HNSW, OpenSearch vector search, Elasticsearch vector search


• опыт построения мониторинга и алертинга для ML-моделей


• опыт анализа деградации качества ранжирования в проде

Условия
  • гибридный формат работы (м Новослободская)
  • ежегодный пересмотр зарплаты, годовой бонус
  • корпоративный спортзал и зоны отдыха
  • более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
  • расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
  • гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ
  • бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
  • вознаграждение за рекомендацию друзей в команду Сбера
  • корпоративная пенсионная программа.