Puoi semplicemente fare cose in prime-rl - come insegnare a GLM5 a rispondere a problemi di matematica in <2000 token utilizzando 16 nodi per l'addestramento e 12 nodi per fare inferenza con configurazione 2P4D con solo uv run rl @ rl.toml ( @samsja19 mi ha detto che dovrei twittare più cose)