Data Engineer (hadoop, spark)

02 апреля 2024 • г Екатеринбург, Свердловская область • ПАО "Сбербанк" • IT: Разработка

Мы - команда разработки Аналитической Платформы (АПЛ) розничного взыскания и урегулирования.

Создаем, внедряем, сопровождаем и развиваем дата-продукты для наших внутренних клиентов:

в дивизионе в ЦА, в территориальных банках, головных отделениях, центрах ПЦП.

Что это за дата-продукты?

Это и готовые BI решения, на которых конструируем BI дашборды,

это и свои уникальные аналитические веб-приложения, ценность и полезность которых находит отражение:

- в стабильном росте активных пользователей (100 человек в 2020 г. и > 3000 сейчас);

- в оценках удовлетворенности CSI - на уровне выше ожиданий.

Под капотом у этих продуктов в качестве СУБД была и пока остается СУБД Oracle,

но в рамках импортозамещения - принято решение по миграции с Oracle на Hadoop и Greenplum,

с последующим развитием нового аналитического слоя хранилища данных, построения новых интеграционных процессов/взаимодействия

между источниками данных в корпоративно аналитической платформе банка КАП, построение витрин данных на Greenplum в ПКАП платформы дивизиона.

Цель: пользователь не замечает разницы и продолжает пользоваться продуктами, получать привычную ценность и пользу

и при последующем развитии - находит новые точки роста, улучшает свою эффективность и результат.

Именно для этих целей - мы ищем дата инженера, вовлеченного в решение подобного рода задач.

Плюсом будет релевантный опыт таких миграций/настроек потоков данных и их обработки/разработки ETL-процессов.

Обязанности

Проектирование, разработка и поддержка инфраструктуры для хранения и обработки больших данных;
Проектирование и разработка ETL-процессов, используя внутренние и внешние источники данных для NRT и Batch поставок данных;
Проектирование и настройка систем отчетности для разовых и периодических выгрузок данных для внутренних и внешних заказчиков

Требования

Опыт разработки на Java / Python / Scala не менее 3 лет;
Опыт в написании функций для первичной обработки, преобразования и агрегации данных на одном из или нескольких вышеуказанных языках;
Опыт разработки в экосистеме Hadoop (HDFS, YARN, Оркестраторы);
Хорошие знания фреймворка Spark; Базовый опыт оптимизации запросов;
Опыт разработки в SQL (Oracle, PostgreSQL, Greenplum) и NoSQL (Hive, Impala);
Опыт в создании алгоритмов загрузки данных в витрины с учётом историчности, уникальности, логики обновления таблиц;
Хорошие знание SQL (понимание от чего зависит оптимальность запроса; умение разбираться в сложных аналитических запросах);
Уверенные знания теории DWH;
Опыт работы с CI/CD решениями на базе Jenkins и Bitbucket/Git;

Условия

Стабильную белую заработную плату и годовую премию, с возможностью получить повышенную премию;
Работа с передовым техническим стеком;
Бесплатное обучение в лучшем корпоративном университете и возможность проходить внешнее обучение за счет компании;
Льготные условия по ипотеке;
ДМС с первого рабочего дня в современных клиниках, с возможностью прикрепления родственников к программе.

вакансии

карьерные медиа