Byggt upp en Claude Code Skill som gör RL-träning från början till @PrimeIntellect änden Du ger den ett datasetnamn. Den hanterar allt — belöningsfunktion, validering, utvärdering, hub-push, utbildningsinlämning En prompt – > löpjobb. "Bygg en miljö för cais/mmlu abstrakt algebra, använd Qwen/Qwen3-30B-Instruct-2507, 1000 steg, och lämna in träningsjobbet." Länk i kommentarerna