Аналитик-разработчик (GigaChat Data, Speech Data)

23 апреля 2024 • г Москва • ПАО Сбербанк • IT: Data Science и Data Engineering

 Наши задачи на проекте с LLM (GigaChat):



  • готовим данные для всех этапов обучения GigaChat: претрейн, файнтюнинг (SFT), RLHF, доменное обучение, продуктовые кейсы и др.
  • формируем обучающие и тестовые сеты мультимодальных моделей и эмбедеров
  • придумываем и внедряем метрики оценки качества работы GigaChat
  • организуем всю разметку для GigaChat: пишем DE пайплайны, делаем аналитику, пишем методологию
  • инициируем различные эксперименты для обучения базовой модели
  • обучаем модели для обработки данных. Например, классификаторы типов, сегментация документов и пр.


Наши задачи на проекте Speech Data :


  • готовим данные для всех голосовых задач в SaluteSpeech
  • вместе с ML-инженерами мы разрабатываем модели распознавания речи, диаризации, споттера, распознавания эмоций, а еще учим GigaChat понимать звук
  • у нас современный стек, мощные сервера и петабайты аудио
Обязанности
  • Сбор и обработка данных для обучения базовых моделей LLM и ее компонент (претрейн, SFT, reward, PPO и пр.)
  • Реализация проектов для B2B на основе базовой модели: мы работаем с множеством смежных команд и внешними заказчиками, разрабатываем end-2-end решения
  • Определение необходимых метрик для различных компонент, сбор датасетов, написание кода замеров. Мы ищем лучшие метрики для оценки качества работы LLM: от общепринятых (MMLU, TruthfulQA и др.) до кастомных метрик оценки качества работы модели в режиме диалогов или мультимодальных сценариях
  • Написание пайплайнов сбора разметки. Наша команда отвечает за организацию сбора всей разметки для проекта GigaChat: методология, разработка сценариев, кодовая база, мониторинги качества, агрегация и оценка качества конечных меток. Мы имеем обширную кодовую базу, которая еженедельно пополняется
  • Изучение свежих материалов и статей, касающихся работы с обучающими данными LLM, улучшение описанных подходов, проведение экспериментов на базе SOTA подходов и их адаптаций
Требования
  • Знаешь Python на высоком уровне (алгоритмы, структуры данных, GIL, async - Pandas в разработке не используем)
  • Умеешь работать в базами данных
  • Разбираешься в метриках: как ML, так и продуктовых
  • Знаешь математическую статистику, теорию вероятностей и умеешь применять их на практике
Условия
  • Очень сильная молодая команда с которой можно расти вместе
  • Масштабные, сложные и разнообразные задачи
  • Есть возможность влиять на развитие продукта и результат
  • Конкурентную компенсацию (оклад и премии по результатам деятельности)
  • Свободный дресс-код
  • Гибкий график для оптимального баланса работы и личной жизни
  • Профессиональное обучение, семинары, тренинги, конференции, корпоративная библиотека
  • ДМС, страхование жизни
  • Самые инновационные, амбициозные проекты и задачи
  • Льготные кредиты и корпоративные скидки