Data Scientist DL

27 апреля 2024 • г Москва • ПАО "Сбербанк" • IT: Data Science и Data Engineering

Мы ищем специалиста Deep Learning в disrupt направление. Нам нужны специалисты в области NLP и работы с аудио (ASR, TTS).

Вам предстоит участвовать в развитии системы форд-мониторинга Сбербанка, которая обеспечивает защиту клиентов банка во всех каналах обслуживания от мобильных приложений и покупок в интернет до визитов клиентов в офисы.

Нам уже есть чем гордиться, но мы развиваемся и не стоим на месте

17th Annual 2021 Cyber Security Global Excellence Awards winners.

Fraud Prevention GOLD WINNER – SberBank Anti-Fraud System (https://globeeawards.com)

Fraud Prevention Editor’s Choice – SberBank (https://cyberdefenseawards.com)

Мы принимаем активное участие в развитии этой системы и сосредоточены на разработке и внедрении AI-моделей по выявлению мошенничества. У нас ты сможешь поработать с действительно большими объемами данных, широким перечнем передовых технологий и сделать значимый вклад в борьбу с мошенничеством в стране.

Обязанности

·      Исследование новых архитектур и подходов, апробирование на реальных данных

·      Работа с собственной LLM GigaChat. Имплементация LLM для решения прикладных задач

·      Обработка аудио-потока: Speech-to-Text и Text-to-Speech

·      Построение высоконагруженных решений, основанных на DL-моделях

а также

·      Мониторинг и регулярный контроль качества работающих в пром. моделей;

·      Анализ доступных источников данных и информации в них, оценка качества для решения задач;

·      Обсуждение задач и методов их решения совместно с фрод-аналитиками и бизнес-заказчиками, формулирование гипотез и их проверка;

·      Построение воспроизводимых и переиспользуемых решений для работы с данными и моделями

Требования

·      Хорошие знания Python 3

·      Знание PyTorch, опыт полного цикла разработки DL моделей.

·      Знание подходов обработки последовательностей: RNN, Transformer.

·      Опыт использования библиотека анализа данных и построения ML моделей на Python (pandas/dask, xgboost/lightgbm/catboost, sklearn, …), понимание особенностей и границ применимости;

·      Знание мат. статистики и теории вероятностей

·      Знание Git

·      Знание английского языка (чтение документации и статей)

Условия

·      Знание Spark/PySpark, Hive

·      Знание библиотек torch-audio, pyaanote, librosa, nemo.

·      Опыт обработки последовательностей, знание продвинутых подходов.

·      Знакомы подходы tts, stt, diarisation.

·      Опыт взаимодействия с LLM, SFT.

·      Знание подходов распараллеливания вычислений.