Senior Data Scientist (Гео и Графы)

11 сентября 2024 • г Москва • ПАО Сбербанк • IT: Data Science и Data Engineering

Мы - команда Гео и Графов, которая занимается различными проектами, связанными с взаимодействием с юридическими лицами.


Наши проекты:


Эмбеддинги юридических лиц:


  • Обучение моделей эмбеддингов ЮЛ на основе различных источников данных: транзакции, кликстримы, диалоги, граф связей и т.д. Обучение универсальных мультимодальных моделей эмбеддингов. Помощь бизнес-блокам в адаптации и пилотировании эмбеддингов в бизнес-моделях банка.
  • Изучение и внедрение Foundation model в доменах event-sequences и graphs.
  • Взаимодействие с исследовательскими командами AI Lab и Sber AI.


Карта влияния ЮЛ:


  • Построение витрин связей ЮЛ-ФЛ, определение ролей ФЛ в ЮЛ на основе внутренних и внешних источников. Построение датасета для обучения моделей, разметка ролей. Дизайн и обучение модели определения ролей ФЛ в ЮЛ.
  • Создание единого графа ЮЛ-ФЛ, обучение моделей на едином графе, построение эмбеддингов ЮЛ/ФЛ.


Логистические цепочки:


  • Поиск транзакционных связей ЮЛ/ИП, построение графа транзакционных связей. Выделение устойчивых цепочек (сообществ) для решения различных бизнес-задач.
Обязанности
  • Коммуникации с заказчиком, проработка требований, перевод требования на язык ML, выбор подходов к реализации;
  • Работа со структурированными и неструктурированными данными: поиск внутренних и внешних источников, сбор и анализ данных, проверка гипотез;
  • Проведение RND для выбора лучших алгоритмов;
  • Построение и поддержка аналитических и предиктивных моделей (Python + Spark + Sklearn + LGBM), нейросетевых моделей: GNN (графовые нейронные сети), RNN, Transformers;
  • Обеспечение документирования результатов моделирования для передачи на валидацию;
  • Подготовка скриптов для вывода моделей в ПРОМ;
  • Постановка требований для Data Engineer по разработке новых витрин/объектов.
Требования
  • Хорошее знание алгоритмов машинного обучения, нейронных сетей, python-библиотек для работы с ML/DL (Sklearn, LGBM, XGBoost, Pytorch), SQL;
  • Знание принципов построения моделей на графах, последовательностях событий, NLP;
  • Опыт промышленного внедрения моделей, работы с распределенным хранилищем данных (Hadoop, Spark);
  • Понимание процессов ETL, ELT;
  • Опыт наставничества/менторства.


Будет плюсом:


  • Опыт использование UDF для PySpark, особенности написания кода для стека Hadoop;
  • Знание особенностей программирования в распределённых системах;
  • Опыт работы с NoSQL базами данных;
  • Распределенное обучение моделей на ресурсах GPU(А100/V100)/HGX;
  • Знание SOTA алгоритмов в области AI.
Условия
  • Формат работы - офис (ст.м.Кутузовская);
  • Ежегодный пересмотр зарплаты и годовая премия;
  • Корпоративный спортзал и зоны отдыха;
  • Более 400 образовательных программ СберУниверситета для профессионального и карьерного развития;
  • Расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа;
  • Бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров;
  • Вознаграждение за рекомендацию друзей в команду Сбера.