GigaChat — мультимодальная модель, которая работает с текстом, аудио, изображениями и видео. Команда ML-инженеров делает всё, что лежит под капотом её разработки: пайплайны обработки и синтеза данных по всем модальностям, фреймворки для экспериментов с post-training (SFT, DPO, GRPO, online RL), хранение и версионирование терабайт датасетов, инструменты оценки и валидации. На этом фундаменте стоит вся работа с данными при разработке GigaChat.
Мы ищем сильного Individual contributor (IC) в команду ML-инженеров, который умеет в одиночку доводить сложные технические задачи до промышленного качества и готов выступать техническим наставником для одного-трёх стажёров или джуниоров: декомпозировать задачи, проводить код-ревью, помогать ребятам расти.
Строить фреймворк для запуска экспериментов SFT, DPO, GRPO и online RL. Превращать разовые скрипты исследователей в воспроизводимые пайплайны. Сокращать время от идеи до первого результата
Разрабатывать пайплайны псевдоразметки и дистилляции. Строить системы аугментации данных под нужды post-training. Автоматизировать оценку моделью-судьёй (LLM-as-judge). Закладывать в пайплайны измеримые метрики качества данных
Проектировать и поддерживать таблицы и операции на YTsaurus. Писать эффективные MapReduce-операции на Python. Выстраивать версионирование датасетов. Делать офлайн-инференс на YT
Строить пайплайны майнинга трудных негативных примеров для retrieval-, ranker- и reward-моделей с итеративным отбором между этапами обучения.
Поднимать качество тренировочных выборок. Передавать в команды post-training готовые выборки
Строить пайплайны сбора и обработки логов GigaChat: диалоги пользователей, явная и неявная обратная связь. Делать очистку и анонимизацию. Превращать сырые логи в готовые источники данных для post-training: кандидаты для SFT, пары DPO из правок, негативные примеры из отрицательной обратной связи, данные траекторий для online RL
Разрабатывать инструменты для валидации качества моделей и автоматического контроля качества данных. Собирать наборы бенчмарков и метрики, которые действительно предсказывают поведение модели на проде, а не просто коррелируют с академическими рейтингами
Помогать команде поддерживать хостинг открытых моделей (Llama, Qwen, Mistral, vLLM/TGI) для использования внутри пайплайнов генерации и оценки данных. Участвовать в развитии инструментов учёта экспериментов (MLflow / W&B / DVC и внутренние аналоги)
Брать в работу одного-трёх стажёров или джуниоров команды: декомпозировать сложные задачи на куски, делать код-ревью, проводить парные сессии, объяснять инженерный контекст.