Senior Data Scientist (Гео и Графы)
11 сентября 2024 • г Москва • ПАО Сбербанк • IT: Data Science и Data Engineering
Мы - команда Гео и Графов, которая занимается различными проектами, связанными с взаимодействием с юридическими лицами.
Наши проекты:
Эмбеддинги юридических лиц:
- Обучение моделей эмбеддингов ЮЛ на основе различных источников данных: транзакции, кликстримы, диалоги, граф связей и т.д. Обучение универсальных мультимодальных моделей эмбеддингов. Помощь бизнес-блокам в адаптации и пилотировании эмбеддингов в бизнес-моделях банка.
- Изучение и внедрение Foundation model в доменах event-sequences и graphs.
- Взаимодействие с исследовательскими командами AI Lab и Sber AI.
Карта влияния ЮЛ:
- Построение витрин связей ЮЛ-ФЛ, определение ролей ФЛ в ЮЛ на основе внутренних и внешних источников. Построение датасета для обучения моделей, разметка ролей. Дизайн и обучение модели определения ролей ФЛ в ЮЛ.
- Создание единого графа ЮЛ-ФЛ, обучение моделей на едином графе, построение эмбеддингов ЮЛ/ФЛ.
Логистические цепочки:
- Поиск транзакционных связей ЮЛ/ИП, построение графа транзакционных связей. Выделение устойчивых цепочек (сообществ) для решения различных бизнес-задач.
Обязанности
- Коммуникации с заказчиком, проработка требований, перевод требования на язык ML, выбор подходов к реализации;
- Работа со структурированными и неструктурированными данными: поиск внутренних и внешних источников, сбор и анализ данных, проверка гипотез;
- Проведение RND для выбора лучших алгоритмов;
- Построение и поддержка аналитических и предиктивных моделей (Python + Spark + Sklearn + LGBM), нейросетевых моделей: GNN (графовые нейронные сети), RNN, Transformers;
- Обеспечение документирования результатов моделирования для передачи на валидацию;
- Подготовка скриптов для вывода моделей в ПРОМ;
- Постановка требований для Data Engineer по разработке новых витрин/объектов.
Требования
- Хорошее знание алгоритмов машинного обучения, нейронных сетей, python-библиотек для работы с ML/DL (Sklearn, LGBM, XGBoost, Pytorch), SQL;
- Знание принципов построения моделей на графах, последовательностях событий, NLP;
- Опыт промышленного внедрения моделей, работы с распределенным хранилищем данных (Hadoop, Spark);
- Понимание процессов ETL, ELT;
- Опыт наставничества/менторства.
Будет плюсом:
- Опыт использование UDF для PySpark, особенности написания кода для стека Hadoop;
- Знание особенностей программирования в распределённых системах;
- Опыт работы с NoSQL базами данных;
- Распределенное обучение моделей на ресурсах GPU(А100/V100)/HGX;
- Знание SOTA алгоритмов в области AI.
Условия
- Формат работы - офис (ст.м.Кутузовская);
- Ежегодный пересмотр зарплаты и годовая премия;
- Корпоративный спортзал и зоны отдыха;
- Более 400 образовательных программ СберУниверситета для профессионального и карьерного развития;
- Расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа;
- Бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров;
- Вознаграждение за рекомендацию друзей в команду Сбера.