Používám @PrimeIntellect pro celý náš RL pipeline na GLM 4.6V a Nemotron bezpečnostní dolaďování a člověče, moje přesvědčení nikdy nebylo tak silné, je to prostě tak přímočaré prime-rl + verifiers + env hub + hostované školení (nepoužívám, protože mám modální kredity 😋, ale je to skvělé) a můžete doslova trénovat své modely na čemkoli a začít za méně než 15 minut, ne-li rychleji