Кластер моделирования и исследования данных Блока «Стратегия и развитие» Сбера занимается разработкой AI-решений для различных бизнес-доменов подразделения: целеполагание и эффективность деятельности, управление численностью Группы, Data-driven инсайты для стратегии, анализ процессов и клиентских путей банка.
· консультирование / участие в автоматизации источников данных для ML моделей совместно с ML Engineer/Data Engineer;
· end2end-разработка ML-моделей, доведение моделей из стадии MVP до целевого решения (все этапы ЖЦ моделей по CRISP-DM от Data Understanding до Deployment с использованием тех. стека банка);
· NLP-задачи: Preprocessing, Classification, Summarization (Ext/Abst), Sentence Compression, Simplification, NER, Semantic Search, Clustering и др.;
· Domain Adaptation и дообучение (Lora SFT / SFT) большой языковой модели Сбера (GigaChat) с использованием внутренних / синтетических данных;
· LLM Plugins (multi-hop reasoning, поиск, генерация fuse blocks для вызова внешних API);
· разработка Python back-end сервисов для обслуживания моделей в ПРОМ-среде.
Сопутствующие обязательные стримы:
· взаимодействие с бизнес-заказчиком для выявления требований к AI-компоненте продукта;
· участие в разработке архитектуры решения в части AI-компоненты (тех. стек для развертывания моделей в средах исполнения);
участие в стримах по валидации моделей и постановке их на автомониторинг
· опыт в разработке NLP-моделей (обязательно) и рекомендательных систем (желательно);
· умение переводить бизнес-постановку задачи в ML-постановку, грамотная интерпретация полученных результатов;
· высокий уровень владения ядром Python и SQL;
· свободное владение базовыми библиотеками на Python, в том числе: pandas, numpy, matplotlib, seaborn;
· знание фреймворков, библиотек, алгоритмов машинного обучения: Scikit-learn, Pytorch, XGBoost, CatBoost, TensorFlow, transformers;
· опыт работы с NLP-библиотеками: pymorphy2, NLTK, Gensim, spaCy, regexp;
· знание NN-архитектур: LSTM, трансформеры (GPT, BERT, BART, T5);
· контейнеризация: Docker;
· виртуализация: OpenShift;
· брокеры сообщений: Kafka;
· инструменты DevOps (MLOps): Git, Bitbucket, Nexus, Jenkins;
· индустриальный опыт разработки, обучения, тестирования, выведения моделей в эксплуатацию и мониторинга качества;
· технический английский (статьи, документация);
преимущество: pet-projects на Github, владение Confluence, Jira, медали на Kaggle, готовность брать на себя коммуникацию с бизнес-заказчиком.