- Подготовка мультимодальных датасетов и бенчмарков для ML экспериментов продуктовыми командами по различным направлениям генеративных моделей: speech, music, image, video, 3D, text
- Сбор, обработка и хранение данных из открытых источников (web-сайты, huggingface, youtube, telegram, VK, pinterest, и пр)
- Генерация синтетических данных различными open-source моделями (qwen, flux, gemini и др)
- Организация проектов ручного сбора и валидации данных на крауд-платформах TagMe, Elementary, ЯЗ
- Фильтрация и процессинг данных на предмет дублей, блюра, вотермарок, неправомерного контента, реалистичности, эстетичности и технического качества.
Технический стек:
S3, PG, Hadoop, GreenPlum, Airflow, Docker, Kubernetes, Git, Vault, **Python/**SQL, ML Space, Confluence, Jira