Senior NLP в GigaChat (SberDevices)

12 августа 2024 • г Москва • ПАО "Сбербанк" • IT: Data Science и Data Engineering

SberDevices — эта большая команда, которая трудится над десятками цифровых сервисов, разрабатывает офлайн-устройства.

Мы ищем Data Scientist для работы над данными pretrain Gigachat.

Мы команда больших языковых моделей в SberDevices, которая занимается непосредственно тренировкой и выпуском Gigachat.

Обязанности
  • очищать данные: обрабатывать "сырые" данные из интернета, очищать от  рекламных блоков;
  • убирать дубликаты: оптимизировать объем данных для экономии ресурсов на обучение, удалять дубли и схожий контент, решать проблемы семантической дедубликации длинных текстов;
  • определять качество данных: оценивать огромные корпуса текста по различным критериям (более 10 в проработке) с помощью LLM, а так же более легких дискриминативных моделей, которые надо будет так же обучить на более чем 90 различных языках.
Требования
  • хороший релевантный опыт в NLP сфере
  • хорошее профильное образование.
Условия
  • дружная профессиональная команда – помогаем друг другу и словом, и делом;
  • интересные задачи, возможность увидеть результаты своей работы внедрёнными в продукт;
  • возможность участия на внутренних и внешних IT-конференциях;
  • в вашем распоряжении все необходимые инструменты, мощное оборудование;
  • знаменитый офис на Кутузовском проспекте с парковкой и спортзалом, массажными креслами;
  • возможность гибридного формата работы;
  • расширенная программа ДМС (возможность подключения родственников), страхование жизни 
  • специальные условия по кредитам/ипотеке
  • скидки от компаний-партнёров 
  • атмосфера стартапа и надёжность гиганта.