Наша команда готовит данные для базовых моделей LLM (GigaChat) и Speech (ASR, Spotter, виртуальные ассистенты). Кроме того, мы помогаем смежным командам эффективно использовать данные технологии для оптимизации бизнес-процессов, улучшения сервисов.
Наши задачи на проекте с LLM (GigaChat):
- Готовим данные для всех этапов обучения GigaChat: претрейн, файнтюнинг (SFT), RLHF, доменное обучение, продуктовые кейсы и др.
- Придумываем и внедряем метрики оценки качества работы GigaChat
- Организуем всю разметку для GigaChat: пишем DE пайплайны, делаем аналитику, пишем методологию
- Инициируем различные эксперименты для обучения базовой модели
- Обучаем модели для обработки данных. Например, классификаторы типов, сегментация документов и пр.