prime-rlでいろいろできます。例えば、GLM5に解答数学を教えて、<2000トークンで16ノードをトレーニングし、12ノードで推論を行い、2P4D構成でuvだけrunrl @ rl.toml(@samsja19もっとツイートしたほうがいいと言われました)