É interessante como ninguém entende que o pipeline de RL é a parte mais difícil de construir um modelo sota hoje em dia (pelo menos com menos de 1T de parâmetros)