Разрабатываем высокопроизводительные CUDA-операторы для PyTorch, обеспечивающие обучение и инференс мультимодальных моделей с максимальной утилизацией GPU ресурсов. Фокус — низкоуровневая оптимизация, кастомные ядра, memory management и эффективная работа с новыми архитектурами GPU.
Будет большим преимуществом: