Du kan bara göra saker i prime-rl – som att lära GLM5 att svara på matematik i <2000-tokens med 16 noder för träning och 12 noder för att göra inferens, med 2P4D-konfiguration endast med uv kör rl @ rl.toml (@samsja19 sa att jag borde twittra mer)