Мы создаём среду для саморазвивающихся агентов по принципу OpenClaw. Агент должен самостоятельно исследовать окружение, ставить подцели, адаптироваться к изменениям и находить оптимальные стратегии для достижения задач (например, сбор ресурсов, перемещение, выживание). И все это в связке с процессами банка, в частности Бизнес планирования КИБ
базовое знание Python (циклы, классы, функции, работа со словарями/списками).
понимание концепции MDP (Markov Decision Process): состояние, действие, награда, политика.
опыт работы с хотя бы одной из библиотек: PyTorch, TensorFlow, JAX (даже учебные проекты).
знание основных алгоритмов Reinforcement Learning: Policy Gradient, DQN или A2C (на уровне понимания формулы и способности реализовать простой пример).
умение читать и адаптировать чужой код, работать с Git (ветки, pull requests).
английский язык на уровне чтения технической документации и статей (например, OpenAI Spinning Up, CleanRL).
работа с базовыми SQL БД