Heet onderwerp: RL van "numerieke" beloningen is gewoon gemak / onze luiheid -- en het is niet het juiste paradigma voor LLM's. Tokens IN, Tokens out FTW