Nuovo post sul blog. Recentemente, le persone hanno parlato di quanto ci voglia molta più potenza di calcolo per ottenere un singolo campione in RL rispetto a quanto avviene nel pretraining. Ma questo è solo metà del problema. In RL, quel campione costoso ti fornisce anche di solito molti meno bit. E questo ha implicazioni su quanto bene RLVR si scalerà, oltre ad aiutarci a capire perché il self-play e l'apprendimento curricolare siano così utili per RL, perché i modelli RLed sono bizzarramente frastagliati e come possiamo pensare a cosa fanno gli esseri umani in modo diverso. Link qui sotto.