Senior Data Scientist NLP

25 июня 2024 • г Москва • ПАО "Сбербанк" • IT: Разработка

Кто мы?

Наша междисциплинарная команда: юристов, лингвистов, разработчиков и исследователей данных создаёт семейство продуктов, позволяющих автоматизировать разнообразные правовые экспертизы. Мы накопили обширную экспертизу в области применения трансформерных моделей для решения иерархических NER-задач, а сейчас одними из первых в мире реализуем семейство юридических сервисов на базе LLM.


Мы создаем банковские и экосистемные LegaTech-продукты и находимся на переднем крае разработки искусственного интеллекта в сфере повышенной ответственности – юриспруденции.

Наш вызов

Научить искусственный интеллект анализировать правовые риски и выдавать проекты юридических заключений по документам, предоставленным клиентами банка, создавать выверенные и юридически корректные документы, осуществлять детализированный поиск по объектам внутри документов. Сложность задач заключается в том, что используемые ML-алгоритмы должны уметь анализировать большой объем данных из разных источников.

Обязанности

Кого мы ищем?

Мы ищем опытного и неравнодушного Senior DS, способного возглавить обучение моделей для NLP-сервисов с применением самого современного технологического стека, в том числе – больших языковых моделей (LLM). 

Чем предстоит заниматься

У вас будет возможность участвовать во всех этапах реализации NLP/AI задач – от поиска релевантных статей на Arxiv и проведения экспериментов до проверки моделей на реальных данных и вывода в production. Работа связана с внедрением больших лингвистических моделей LLM в наши процессы:

●     Анализ задач и подбор адекватных SOTA-решений, быстрая оценка эффективности их применения, оценка необходимых ресурсов (данные, вычисления), проверка гипотез, выработка плана разработки.

●     Подготовка требований к составу, объему и форматам данных, необходимых для дообучения на примерах (SFT — supervised fine-tuning) LLM на специализированном юридическом домене, взаимодействие с функциями DA/DE.

●     Организация процесса превращение GPT моделей в InstructGPT по методологии RLHF (обучение с подкреплением по обратной связи от человека).

●     Участие в разработки инструментов разметки для целей тренировки RM (модуля наград RL-цикла тренировки LLM).

●     Автогенерация обучающих примеров для InstructGPT и другие способы уменьшения издержек в процессе адаптации LLM под требования пользователей (Human tasks Alignment)

●     Изучение, разработка и внедрение подходов, обеспечивающих высокий уровень честности (Honest) моделей, в том числе с самодиагностикой — это важно для правовой экспертизы.

●     Улучшение уже применяющихся компонент, моделей и пайплайнов сегментации и классификации, извлечения и связывания сущностей в используемом нами подходе к решению задачи NER, работа над ошибками моделей, доработка архитектуры.

Мы также рассчитываем на активное участие успешных кандидатов в подготовке пилотных решений и демонстрации AI-продуктов перспективным клиентам вне Сбера.


Наш текущий технологический стек:

·      Модели: MT0, T5, BERT (RuBERT-Base), LLM (LLaMA-2 и, конечно же, GigaChat)

·      PyTorch, ML Flow

·      pandas, numpy, scipy, matplotlib, seaborn

·      PostgreSQL, MongoDB, Redis, Elasticsearch

·      Docker, Kubernetes,

·      Собственные инструменты и ресурс разметки

Требования

Наши ожидания от кандидатов:


●     Понимание архитектуры и принципов обучения больших лингвистических моделей (LLM) и генеративных трансформеров (GPT-3 и выше).

●     Понимание принципов обучения и применения моделей обучения с подкреплением (Reinforced Learning).

●     Понимание принципов квантизации нейронных сетей.

●     Готовность работать в команде и применять Git, Jira, Confluence и другие средства командной работы.

●     Высокая степень самоорганизации.

●     Подробное написание документации к разработанным продуктам и поддержание её в актуальном состоянии.

●     Готовность браться за нестандартные, сложные задачи.

Условия

1. Уникальные масштабные проекты, работа в приоритетном направлении;

2. Достойная заработная плата (оклад + годовая премии);

3. Современные рабочие места и программное обеспечение;

4. Ипотека выгоднее для каждого сотрудника и льготные условия кредитования;

5. Бесплатная подписка СберПрайм+;

6. Скидки на продукты компаний-партнеров: Okko, Сбер Маркет, Delivery Club, Самокат, Сбер Еаптека и другие;

7. ДМС с первого дня и льготное страхование для близких;

8. Корпоративная пенсионная программа;

9. Обучение за счет Компании: онлайн курсы в Виртуальной школе Сбера и неограниченный доступ к библиотеке, обучение в Корпоративном университете, тренинги, митапы и возможность получить новую квалификацию;

10. Реферальная программа для сотрудников: можно пригласить в команду знакомых профессионалов и получить вознаграждение до 100 тыс. рублей;

11. Скидки на отдых в лучшем в мире курортном комплексе «Mriya Resort & SPA».