eine Claude-Code-Fähigkeit entwickelt, die RL-Training auf @PrimeIntellect end-to-end durchführt du gibst einen Datensatznamen an. Es kümmert sich um alles – Belohnungsfunktion, Validierung, Auswertung, Hub-Push, Trainingsübermittlung ein Prompt -> laufender Job. "Erstelle eine Umgebung für cais/mmlu abstrakte Algebra, verwende Qwen/Qwen3-30B-Instruct-2507, 1000 Schritte und reiche den Trainingsjob ein." Link in den Kommentaren