«Мы - команда платформы обучения моделей, отвечаем за автоматизацию процессов подготовки данных, проведения экспериментов, базовые инструменты, инфраструктуру и автоматику, которая снимает головную боль с наших инженеров и помогает им двигаться быстрее.
Мы ищем SeniorMLOPS для усиления нашей команды автоматизации базовых инструментов и инфраструктуры.
Чем предстоит заниматься:
- Разворачиванием, предоставлением, поддержкой и развитием инфраструктуры ML-платформы;
- Интеграцией инструментов и с инфраструктурой и окружениями проведения экспериментов и подготовки данныъ;
- Мониторингом и обеспечением бесперебойной работы ML-платформы;
- Мониторингом и оценкой утилизации аппаратных ресурсов и машинерией для реализации fair-share механизмов
Пожелания к опыту:
- Опыт использования и работы с: Linux, bash, Python3, pytest, SQL, Kubernetes, Grafana, VictoriaMetrics, OTLP, ELK, Moira и тп;
- Опыт использования LLM стека инструментов: vLLM, SGLang, FSDP, Ray, TRL, NeMO, W&B, SLURM, RLI, Verl, Lustre и тп;
- Умение разворачивать, настраивать, мониторить необходимое ML-окружение на инфраструктуре: Spark (PySpark), Airflow, Docker, GitLabCI, MLFlow, JupyterHub;
- Владение практиками DevOps и понимание философии IaaC и self-service-platform.»