Opinione controversa: RL dai premi "numerici" è solo comodità / la nostra pigrizia -- e non è il paradigma giusto per gli LLM. Token IN, Token out FTW