Senior Analyst Developer (GigaChat)

08 июля 2024 • г Москва • ПАО "Сбербанк" • IT: Разработка

Цифровые поверхности Салют (SberDevices) — уникальное IT-пространство внутри Сбера. Мы занимаемся разработкой голосовых продуктов, умных устройств и виртуальных ассистентов и сервисов для них.


Наша команда готовит данные для базовых моделей LLM (GigaChat) и Speech (ASR, Spotter, виртуальные ассистенты). Кроме того, мы помогаем смежным командам эффективно использовать данные технологии для оптимизации бизнес-процессов, улучшения сервисов.


Наши направления на проекте:

Gigachat Data готовит данные для всех этапов обучения GigaChat: файнтюнинг (SFT), RLHF, доменное обучение (например, математика, финансы, медицина), продуктовые кейсы. Кроме текстовых моделей мы формируем обучающие и тестовые сеты мультимодальных моделей и эмбедеров.

Speech Data готовит данные для всех голосовых задач в SaluteSpeech. Вместе с ML-инженерами мы разрабатываем модели распознавания речи, диаризации, споттера, распознавания эмоций, а еще учим GigaChat понимать звук. У нас современный стек, мощные сервера и петабайты аудио.

Обязанности

Задачи, с которыми работаем:



  • Research: исследование и реализация перспективных подходов обучения, синтеза и фильтрации данных
  • Конструирование метрик и бенчмарков LLM
  • Разработка пайплайнов для решения продуктовых кейсов с помощью больших языковых моделей
  • Code: реализация prod-ready кода по работе с LLM, БД, API
  • Markup: формирование и контроль пайплайнов разметки данных
  • Pretrain: повышение качества pretrain набора данных
  • RL: эксперименты с RL, Reward и DPO подходами.
Требования
  • опыт в улучшении и аналитике ML-моделей — от трех лет.


Будет плюсом:



  • опыт синтеза, обогащения и фильтрации обучающих данных.
  • опыт формирования и работы с продуктовыми и ML метриками, тестовыми сетами и бенчмарками в разных доменах.
  • опыт построения пайплайнов разметки данных.
  • использование, обучение и файн-тюн open-source LLM и других нейросетей.
Условия
  • очень сильная молодая команда, с которой можно расти вместе, в команде происходит ооооочень много интересного - будет на что посмотреть и у кого поучиться
  • масштабные, сложные и разнообразные задачи, есть возможность влиять на развитие проекта и результат и стремительно расти как профи
  • своя digital-платформа для развития ключевых IT-компетенций, внутренние и внешние конференции и профессиональные сообщества Сбера
  • знаменитый офис на Кутузовском проспекте с парковкой и спортзалом, возможность выбора формата работы (офис, гибрид)
  • много корпоративных плюшек: расширенная программа ДМС (возможность подключения родственников), страхование жизни, специальные условия по кредитам/ипотеке, скидки от компаний-партнёров
  • атмосфера стартапа и надёжность гиганта.