Команда Поиска ищет ML Engineer в MusicSearch. Мы создаём поисковый движок, который позволяет ассистенту на устройствах находить нужный трек, исполнителя, плейлист или подкаст.
Ты будешь работать с архитектурой поискового движка, индексом, ML-моделями ранжирования и персонализацией выдачи. Основной фокус роли — развитие ML-движка поиска и внедрение современных подходов в ранжировании и retrieval: гибридный retrieval, BERT/Transformer-модели, Learning to Rank, персонализация, OpenSearch/Elasticsearch, CatBoost, Airflow и PySpark.
• практический опыт в задачах ранжирования / поиска / рекомендаций / NLP от 3 лет
• опыт работы с классическим ML и градиентным бустингом: CatBoost, LightGBM или XGBoost
• опыт feature engineering для задач ранжирования, поиска или рекомендаций
• опыт работы с BERT / Transformer-моделями для NLP-задач: эмбеддинги, семантический поиск, matching query-document или reranking
• понимание принципов lexical search, dense retrieval и ML-reranking
• понимание, какие метрики применять в разных классах поисковых задач
• опыт работы с Airflow или другими оркестраторами задач для ML/data-пайплайнов
• опыт работы с большими данными: PySpark, SQL или аналогичные инструменты
• уверенное владение Python, умение писать читаемый и поддерживаемый код
Будет плюсом:
• опыт production-эксплуатации моделей ранжирования
• опыт построения гибридного или векторного поиска
• опыт с retrieval-частью RAG-систем: чанкинг, эмбеддинги, retriever, reranker, оценка релевантности
• опыт A/B-тестирования и оценки качества поиска
• понимание типов событий и логов вокруг поиска, создание фичей на их основе
• опыт работы с OpenSearch / Elasticsearch в highload-системах
• опыт работы с векторным поиском и ANN-индексами: FAISS, HNSW, OpenSearch vector search, Elasticsearch vector search
• опыт построения мониторинга и алертинга для ML-моделей
• опыт анализа деградации качества ранжирования в проде