Opinión polémica: el RL a partir de recompensas "numéricas" es solo conveniencia / nuestra pereza -- y no es el paradigma correcto para los LLMs. Tokens dentro, tokens fuera FTW