Наша команда занимается задачами, связанными с интеллектуальной обработкой документов, созданием систем OCR/HCR, парсингом таблиц, работой со структурированными документами (ID, формы и т.д.), извлечением сущностей и фактов из текстовой информации.
Сейчас в пайпланах используется более десятка различных DL моделей, выстроен процесс сбора и разметки данных, собственная команда разметчиков, инфраструктура трекинга экспериментов и управления датасетам, кластер из нескольких DGX для проведения экспериментов)
Нашими решениями (SberOCR, DocID) пользуется уже несколько десятков команд банка и мы продолжаем активно вкладываться в ресерч с целью улучшение существующих продуктов и развития новых инициатив.
Мы расширяем команду и ищем коллег для работы над сложными задачами связанными с анализом структуры документов, восстановлением порядка чтения с учетом семантики и улучшения существующих решений.
- Развитие собственного движка обработки документов OCR.
- Развитие transformer-based и graph-based подходов к анализу структуры документов (layout analysis) и восстановлению порядка чтения (reading order).
- Развитие text spotting методов.
- Участие в создание универсальных foundation models для обработки документов.
- Разработка методов исправления опечаток на основе LLM.
- Улучшение генераторов синтетических данных.
- Имплементация и обучение моделей OCR, детекции текста, детекции объектов, сегментации и классификации.
-Чтение статей и перекладывание SOTA на пром рельсы, в том числе GCN, LayoutLM V3, UDOP, Donut, UNIfied scene Text Spotter (UNITS).
- Запуск распределенного обучения на GPU кластере MLSpace (Кристофари).
- Организация циклов дообучения на новых данных (постановка задач разметчикам, запуск crowdsource майнинга данных и т.д).
- Оптимизация моделей для исполнения: квантизация и дистилляция моделей.
- Портирование на :tensorrt: и :openvino:
- Релизы новых моделей в среды исполнения.
- Отличное знание одного из pytorch, tf + numpy, sklearn, pandas
-Опыт разработки/обучения/внедрения одной или нескольких типов моделей: object detection , semantic segmentation, instance segmentation, OCR, text detection, text spotting, transformers, multimodal transformers и т.д.
- Хорошее знание классического CV и OpenCV
- Хорошее знание алгоритмов, python3, ООП, SOLID, git, docker
- Желание изучать новые подходы, модели и технологии
Плюсом будет:
- Хороший профиль на :github:
- Медальки на :kaggle:
- Опыт в обучение мультимодальных моделей
- Опыт работы с ClearML/MLflow, Kubeflow, DVC/LakeFS, S3/Minio, Airflow, Jenkins, Grafana