Hot take: RL fra «numeriske» belønninger er bare bekvemmelighet / vår latskap – og det er ikke riktig paradigme for LLM-er. Tokens inn, tokens ut FTW