Je kunt gewoon dingen doen in prime-rl - zoals GLM5 leren om wiskunde te beantwoorden in <2000 tokens met 16 nodes om te trainen en 12 nodes om inferentie te doen met een 2P4D-configuratie met alleen uv run rl @ rl.toml ( @samsja19 vertelde me dat ik meer dingen moest tweeten)