Voit tehdä asioita prime-rl:llä – kuten opettaa GLM5:lle matematiikan vastaaminen <2000 tokenilla käyttäen 16 solmua koulutettavaksi ja 12 solmua päättelyyn 2P4D-konfiguraatiolla, vain uv-suoritus rl @ rl.toml (@samsja19 sanoi, että minun pitäisi twiitata enemmän)