Możesz po prostu robić rzeczy w prime-rl - na przykład nauczyć GLM5 odpowiadać na matematyczne pytania w <2000 tokenów, używając 16 węzłów do treningu i 12 węzłów do wnioskowania z konfiguracją 2P4D, używając tylko uv run rl @ rl.toml ( @samsja19 powiedział mi, że powinienem więcej tweetować)