Ostrý názor: RL z "číselných" odměn je jen pohodlí / naše lenost – a není to správný přístup pro LLM. Tokeny dovnitř, tokeny venku FTW