a construit une compétence de code claude qui effectue un entraînement RL sur @PrimeIntellect de bout en bout vous lui donnez un nom de jeu de données. il gère tout — fonction de récompense, validation, évaluation, envoi vers le hub, soumission de l'entraînement une invite -> travail en cours. "Construisez un environnement pour cais/mmlu algèbre abstraite, utilisez Qwen/Qwen3-30B-Instruct-2507, 1000 étapes, et soumettez le travail d'entraînement." lien dans les commentaires