ho creato una skill di codice claude che esegue l'addestramento RL su @PrimeIntellect end to end dai un nome al dataset. gestisce tutto — funzione di ricompensa, validazione, valutazione, invio al hub, invio dell'addestramento un prompt -> lavoro in esecuzione. "Crea un ambiente per cais/mmlu algebra astratta, usa Qwen/Qwen3-30B-Instruct-2507, 1000 passi, e invia il lavoro di addestramento." link nei commenti