Мы ищем ML Engineer в RnD подразделение для работы над мультимодальной эмбеддинг-моделью. Наша цель — создание foundation-модели для векторного поиска по тексту и изображениям (в стиле ColPali, Gemini Embedding). Вам предстоит работать на стыке инженерии и исследований: создавать датасеты и бенчмарки, обучать модели (Contrastive Learning) и сравнивать эффективность кастомных решений с SOTA.
- Подбор и подготовка датасетов для обучения и оценки качества поиска (для разметки и обкачки данных у нас есть отдельная команда);
- Разработка и обучение эмбеддеров (в архитектуре VLM), реализация новых методов и проверка гипотез (например, Late Interaction);
- Сравнительный анализ производительности против SOTA решений (ColPali, Gemini Embedding, Qwen);
- Проектирование и поддержка пайплайнов оценки качества эмбеддингов (MTEB, IR benchmarks) для мультимодальных систем.
- Опыт от 1 года коммерческой разработки в ML с фокусом на NLP, CV или Multimodal;
- Понимание архитектур эмбеддинг-моделей (CLIP, ColBERT/ColPali), механик контрастивного обучения;
- Понимание принципов alignment модальностей в VLM и методов fine-tuning (фулл, LoRA)
- Владение экосистемой: PyTorch, HuggingFace (Transformers, Datasets).
Будет плюсом:
- Опыт обучения моделей с использованием контрастивным лоссом (InfoNCE);
- Опыт оценки качества поиска (Recall, MRR, NDCG) и проектирования экспериментов для сравнения гипотез;
- Опыт распределенного обучения на нескольких GPU/нодах (DeepSpeed, Accelerate);
- Публикации, соревнования или пет-проекты в области Multimodal Retrieval или CV.