Můžete prostě dělat věci v prime-rl – například naučit GLM5 odpovídat na matematiku v <2000 tokenech, kde použijete 16 uzlů pro trénování a 12 uzlů pro inferenci v konfiguraci 2P4D, kde se používá pouze uv run rl @ rl.toml (@samsja19 mi řekli, že bych měl tweetovat víc).