Привет! Это GigaChat Reasoning — команда, которая даёт модели суперсилу размышлять. Мы придумываем среды, тренируем через online RL, ускоряем обучение и доводим решения до продакшна.
Улучшение GigaChat Reasoning: полный цикл обучения от холодного старта до вывода модели продакшн. Добавление новых доменов, создание датасетов и функций оценки ответов.
Развитие агентских навыков и tool calling с помощью Online RL: создание сред для обучения LLM, обучение и тестирование моделей.
Улучшение продукта Deep Research
На эти роли мы ищем талантливого NLP Engineer со знанием и опытом в Reinforcement Learning. Для всех этих экспериментов у нас есть кластер с большим числом A/H 100'ых.