isto é fixe. prevejo que até maio de 2026 qualquer pessoa poderá treinar um modelo personalizado como este para ~qualquer tarefa através de alguma combinação de prime-rl/verificadores, tinker, skyRL, slime, etc. o diferencial será saber qual tarefa treinar com RL e a magia dos dados/ambientes.