am construit o abilitate claude code care face antrenamente RL @PrimeIntellect de la un capăt la altul Îi dai un nume de set de date. Se ocupă de tot — funcția de recompensă, validarea, evaluarea, împingerea hub-ului, trimiterea instruirii Un prompt - > lucrarea de rulare. "Construiește un mediu pentru algebra abstractă cais/mmlu, folosește Qwen/Qwen3-30B-Instruct-2507, 1000 de pași și trimite jobul de instruire." Link în comentarii