Створив навичку Claude Code, яка проводить RL-тренування від початку до кінця @PrimeIntellect Ви даєте йому назву датасету. Він відповідає за все — функцію винагороди, валідацію, оцінку, хаб push, подачу тренувань Один запит — > біг. "Створіть середовище для абстрактної алгебри cais/mmlu, використовуйте Qwen/Qwen3-30B-Instruct-2507, 1000 кроків і подайте навчальну роботу." посилання в коментарях