Heißer Take: RL aus "numerischen" Belohnungen ist nur Bequemlichkeit / unsere Faulheit -- und es ist nicht das richtige Paradigma für LLMs. Tokens rein, Tokens raus FTW