создан навык кода claude, который выполняет обучение с подкреплением на @PrimeIntellect от начала до конца вы даете название набора данных. он обрабатывает все — функцию вознаграждения, валидацию, оценку, отправку в хаб, подачу на обучение один запрос -> выполняемая задача. "Создайте среду для cais/mmlu абстрактной алгебры, используйте Qwen/Qwen3-30B-Instruct-2507, 1000 шагов и отправьте задачу на обучение." ссылка в комментариях