Data Scientist NLP

13 марта 2024 • г Москва • ПАО "Сбербанк" • IT: Разработка

Кого мы ищем?

Мы ищем опытного и неравнодушного Senior DS, способного возглавить обучение моделей для NLP-сервисов с применением самого современного технологического стека, в том числе – больших языковых моделей (LLM).

Кто мы?

Наша междисциплинарная команда: юристов, лингвистов, разработчиков и исследователей данных создаёт семейство продуктов, позволяющих автоматизировать разнообразные правовые экспертизы. Мы накопили обширную экспертизу в области применения трансформерных моделей для решения иерархических NER-задач, а сейчас одними из первых в мире реализуем семейство юридических сервисов на базе LLM.


Мы создаем банковские и экосистемные LegaTech-продукты и находимся на переднем крае разработки искусственного интеллекта в сфере повышенной ответственности – юриспруденции. 


Наш вызов

Научить искусственный интеллект анализировать правовые риски и выдавать проекты юридических заключений по документам, предоставленным клиентами банка, создавать выверенные и юридически корректные документы, осуществлять детализированный поиск по объектам внутри документов. Сложность задач заключается в том, что используемые ML-алгоритмы должны уметь анализировать большой объем данных из разных источников.

Обязанности

Чем предстоит заниматься

У вас будет возможность участвовать во всех этапах реализации NLP/AI задач – от поиска релевантных статей на Arxiv и проведения экспериментов до проверки моделей на реальных данных и вывода в production. Работа связана с внедрением больших лингвистических моделей LLM в наши процессы:

●     Анализ задач и подбор адекватных SOTA-решений, быстрая оценка эффективности их применения, оценка необходимых ресурсов (данные, вычисления), проверка гипотез, выработка плана разработки.

●     Подготовка требований к составу, объему и форматам данных, необходимых для дообучения на примерах (SFT — supervised fine-tuning) LLM на специализированном юридическом домене, взаимодействие с функциями DA/DE.

●     Организация процесса превращение GPT моделей в InstructGPT по методологии RLHF (обучение с подкреплением по обратной связи от человека).

●     Участие в разработки инструментов разметки для целей тренировки RM (модуля наград RL-цикла тренировки LLM).

●     Автогенерация обучающих примеров для InstructGPT и другие способы уменьшения издержек в процессе адаптации LLM под требования пользователей (Human tasks Alignment)

●     Изучение, разработка и внедрение подходов, обеспечивающих высокий уровень честности (Honest) моделей, в том числе с самодиагностикой — это важно для правовой экспертизы.

●     Улучшение уже применяющихся компонент, моделей и пайплайнов сегментации и классификации, извлечения и связывания сущностей в используемом нами подходе к решению задачи NER, работа над ошибками моделей, доработка архитектуры.

Мы также рассчитываем на активное участие успешных кандидатов в подготовке пилотных решений и демонстрации AI-продуктов перспективным клиентам вне Сбера.

Требования

Наш текущий технологический стек:

·      Модели: MT0, T5, BERT (RuBERT-Base), LLM (LLaMA-2 и, конечно же, GigaChat)

·      PyTorch, ML Flow

·      pandas, numpy, scipy, matplotlib, seaborn

·      PostgreSQL, MongoDB, Redis, Elasticsearch

·      Docker, Kubernetes,

·      Собственные инструменты и ресурс разметки


Наши ожидания от кандидатов:


●     Понимание архитектуры и принципов обучения больших лингвистических моделей (LLM) и генеративных трансформеров (GPT-3 и выше).

●     Понимание принципов обучения и применения моделей обучения с подкреплением (Reinforced Learning).

●     Понимание принципов квантизации нейронных сетей.

●     Готовность работать в команде и применять Git, Jira, Confluence и другие средства командной работы.

●     Высокая степень самоорганизации.

●     Подробное написание документации к разработанным продуктам и поддержание её в актуальном состоянии.

●     Готовность браться за нестандартные, сложные задачи.

Условия

Что мы предлагаем

·      Работа среди сильных специалистов в своей области. В нашей команде работают выпускники МФТИ, МГУ, ВШЭ, МГЮА

·      Возможности саморазвития: оплата поездок на конференции, прохождение курсов, спортзал. Также приветствуется научная деятельность и публикации статей/тезисов конференций.

·      ДМС для сотрудника и его родственников.

·      Льготная ипотека в Сбере.