Senior \ Lead MLops (ИСУ)

29 февраля 2024 • г Москва • ПАО "Сбербанк" • IT: Data Science и Data Engineering

Команда продукта «Интеллектуальная система управления руководителя» занимается созданием продукта, разработка которого включает:

1. Data-решения для управленческих функций: витрины данных и базы знаний на основе множества источников структурированной и неструктурированной информации.

2. AI-сервисы для инструментов руководителя от идеи до промышленной эксплуатации, а именно:

- развитие голосового Виртуального Ассистента для помощи руководителю;

- классификация встреч/задач;

- умные цели по эффективности;

- автоматический график встреч сотрудника;

- извлечение главного из диалоговых последовательностей (голос, текст).

3. Решения с использованием сервисов партнеров экосистемы (Jazz, SberChat, Салют).

4. Трекер задач (аналог Trello), обеспечивающей управление задачами end2end: от планирования до мониторинга выполнения и поиска корневых причин.

5. Инструменты оценки встреч и обратной связи, реализующие принципы прозрачности в рамках follow-up менеджмента.


 Вызовы заключаются в определении единой MLOps-архитектуры (концептуальная арх-ра и microservices solution architecture) для деплоя AI-моделей продукта с учетом взаимосвязи между их входами и выходами.

Дополнительный вызов – исследование большого количества новых источников данных и участие в организации интеграционных взаимодействий в части доставки исходных данных до целевой платформы – получателя информации, а также создания единого централизованного хранилища различных данных под нужды микросервисов внутри продукта (сервисы аналитики, исполнения моделей). В задачи сотрудника входят:

- определение концептуальной и microservices solution архитектуры для обеспечения согласованной работы аналитических (в т.ч. AI) сервисов продукта с учетом требований к технологическому стеку внутри банка;

- подготовка решений на основе моделей и реализация MLOps-функции для деплоя моделей в промышленное окружение с учетом функциональных и нефункциональных требований;

- выстраивание единой схемы данных продукта с учетом основных требований к их доступности и согласованности для обеспечения исполнения моделей в режимах batch-processing и NRT;

- обработка новых источников данных;

- разработка сервисов загрузки данных из новых источников;

- выстраивание промышленных интеграций между источниками и получателем информации, включающее ETL-процессы, проектирование staging area и внутренней логики ЦХД от схем с сырьевыми данными до схем с конечными витринами с учетом требований отдельных функциональных подсервисов (в т.ч. AI-моделей) продукта.

Обязанности

 - сбор и спецификация функциональных и нефункциональных требований к промышленным решениям с использованием AI-моделей

- Поддержка инфраструктурного пайплайна AI решений

- оценка нагрузки и выбор систем хранения

- формирование технических требований для обеспечения масштабируемости, надежности и низкой задержки работы микросервисов

- разработка и актуализация микросервисной архитектуры с учетом одобренного тех. стека

- определение архитектурного data-ландшафта всего продукта

- реализация скриптов предобработки и загрузки данных в БД (Python, стандартные библиотеки для работы с данными)

- подготовка Python-скриптов к использованию в серверном окружении в рамках микросервисной архитектуры

- реализация логики обработки данных в БД Postgres (PL/pgSQL) и Greenplum

- организация интеграций с Централизованным ХД (Greenplum) в рамках ETL-пайплайнов

- Организация контейнеризации AI моделей

Требования

- контейнеризация: Docker, OpenShift

- Linux

- инструменты DevOps (MLOps): Git, Jira, Bitbucket, Nexus, Jenkins

- брокеры сообщений: Kafka, RabbitMQ

- ML System Design (от этапа scope refinement до модульного дизайна с выделением подсистем хранения и аналитики)

- сбор и спецификация требований к произвольному элементу data-ландшафта:

pipeline, DB, DWH (dim/lkp/fact/table, DDS/ODS, data mart)

- OLTP vs OLAP

- продвинутый уровень SQL (DDL, DML, DCL, TCL + диалекты T-SQL, PL/SQL, PL/pgSQL)

- SMP СУБД: Oracle, PostgreSQL и др.

- желателен опыт работы с MPP СУБД: Teradata, Greenplum и др.

- понимание работы основных ML моделей (классические модели, нейросети)

- желателен опыт разработки ML моделей и опыт работы с библиотеками Pytorch/Tensorflow, pandas, numpy, scikit-learn)

- опыт обработки больших объемов данных и распараллеливания вычислений

- ER-моделирование: инфологическая, даталогическая модели

- нормализация БД (3 НФ)

- знание ETL/ELT + ETL-инструменты: Apache NiFi/Airflow, Ab Initio, Informatica, Airflow

- знание ЯП Python: функциональный подход, ООП, библиотеки для анализа данных, WEB-фреймворки (Flask, Django и др.)

- ключевые архитектурные парадигмы построения детального слоя хранилищ данных (DDS DWH), а именно

Star/Snowflake Schema, Data Vault 1.0/2.0, Anchor Modelling

- логирование основных событий в БД, в том числе для выстраивания мониторинга и обеспечения контроля качества данных, а также управления модельным риском

- понимание фундаментальных различий основных видов NoSQL-решений: key-value, column-oriented, document-oriented, graph

- понимание работы с NoSQL-решениями: MongoDB, Elasticsearch, Firebase, Redis, Cassandra, Vertica, ClickHouse, Neo4j и др.

- файловые системы и объектные хранилища: HDFS, S3;

- желателен опыт работы с BI инструментами (Qlik Sense).

Условия

∙ хороший офис (AgileHome) рядом со станцией метро Кутузовская со всеми удобствами (столовые + множество кафе + кухни с холодильниками, кофемашинами и т.п; бесплатный спортзал; бесплатная подземная парковка на 1000+ мест; места для отдыха - настольный теннис, несколько playstation, кикер, бильярд)

∙ достойная заработная плата (оклад + премии)

∙ возможность работать с современным стеком технологий

∙ оформление по ТК РФ

∙ социальный̆ пакет (ДМС)

∙ огромный каталог образовательных программ, возможность обучения и сертификации за счет компании

∙ программа льготного кредитования в Сбербанке

∙ дисконт-программы от множества компаний партнеров

∙ возможность принять участие в других крупных и уникальных проектах Банка