Bygde en Claude Code Skill som gir RL-trening fra ende til @PrimeIntellect ende Du gir det et datasettnavn. Den håndterer alt — belønningsfunksjon, validering, evaluering, hub push, innlevering av opplæring En prompt – > løpejobb. "Bygg et miljø for cais/mmlu abstrakt algebra, bruk Qwen/Qwen3-30B-Instruct-2507, 1000 steg, og send inn treningsjobben." lenke i kommentarfeltet