Opinião polêmica: o RL de recompensas "numéricas" é apenas conveniência / nossa preguiça — e não é o paradigma certo para LLMs. Tokens DENTRO, Tokens SAINDO FTW