usando @PrimeIntellect para todo o nosso pipeline rl em glm 4.6v e finetunes de segurança nemotron e, meu, a minha convicção nunca foi tão forte, é tão simples prime-rl + verificadores + hub de ambiente + treinamento hospedado (não estou usando porque tenho créditos modal 😋 mas é ótimo) e você pode literalmente treinar seus modelos em qualquer coisa e começar em menos de 15 minutos, se não mais rápido.