ML-инженер / инженер данных (Middle)

05 июня 2026 • г Москва • ПАО Сбербанк • Информационные технологии:Программист, разработчик

Наша команда занимается разработкой внутренних сервисов для разработчиков. Это коллаборативная платформа для организации разработки, портал баз знаний и интерактивным ассистентом, помогающий проходить весь путь разработки продукта от идеи до внедрения. Сейчас мы активно внедряем ИИ в различные сценарии использования продуктов.

Наш стек: Python, Postgres, LangChain, OpenSearch. Код в Bitbucket, трекер JIRA, CI/CD Jenkins, закатываем в Docker, деплоим в облако.

Обязанности
  • Проектирование и поддержка ETL/ELT-процессов для данных под RAG: сбор, очистка, нормализация, чанкинг, генерация эмбеддингов.
  • Создание AI-агентов (в том числе мульти-агентных систем).
  • Разработка и поддержка Python-сервисов.
  • Работа с «сырыми» данными из внутренних систем Сбера (wiki, тикеты, логи, код) — их структурирование и подготовка для LLM.
  • Исследование и подготовка данных для обучения моделей, adhoc.
  • Тестирование собственного кода и ревью чужого.
Требования
  • Опыт разработки AI-агентов (в том числе мульти-агентных систем) с использованием библиотек оркестрации (LangGraph, LangChain, AutoGen, CrewAI).
  • Понимание и практическое применение MCP протокола (Model Context Protocol) для интеграции агентов с внешними инструментами и сервисами.
  • Глубокое знание RAG (Retrieval-Augmented Generation): построение пайплайнов индексации, продвинутые техники ретрива (HyDE, self-query, reranking), работа с чанкингом и эмбеддингами.
  • Опыт работы с LLM через API и локально: системные промпты, few-shot, инструменты (function/tool calling), потоковая обработка (streaming).
  • Хорошее знание Python (асинхронное программирование, типизация, dataclasses/Pydantic) для разработки сервисов на базе агентов.
  • Git, Docker (сборка образов, композ, работа в облачном окружении).
  • Графовые базы данных.


Будет плюсом (и это важно для нас):

  • Опыт подготовки неидеальных, «живых» данных — парсинг, дедупликация, обработка мусора, нормализация текста из разных источников (Markdown, Confluence, Jira, код-базы).
  • Понимание метрик качества данных для RAG — полнота, связность чанков, релевантность эмбеддингов, затраты на индексацию vs качество retrieval.
  • Готовность копаться в логах и трейсах агента, чтобы понять, почему он плохо находит нужный контекст (и исправить это на уровне данных или промпта).
Условия
  • Официальное трудоустройство согласно ТК РФ
  • Белая заработная плата (оклад + годовая премия)
  • Возможность обучения за счет компании
  • Страхование (от несчастных случаев, ДМС)
  • График работы: 5/2 (офис или гибрид)
  • Оздоровительные программы для детей сотрудников
  • Дисконт-программы от компаний партнеров (фитнес, страхование, туризм)
  • Льготное кредитование, ипотека
  • Экспертная и талантливая команда, у которой можно многому научиться
  • Культура открытости и взаимовыручки: наша команда состоит из людей, вовлеченных в процесс и не безразличных к тому, что они делают
  • Высокая скорость процессов и возможность быстро увидеть свой вклад
  • Возможность влиять на процесс и результат
  • Адрес: БЦ Даниловский Форт., М. Тульская / Нагатинская / Верхние Котлы