Nytt blogginnlegg. Nylig har folk snakket om at det krever mye mer beregning å få ett enkelt utvalg i RL enn det gjør i fortrening. Men dette er bare halve problemet. I RL gir den dyre prøven deg vanligvis også mye færre biter. Og dette har implikasjoner for hvor godt RLVR vil skalere, i tillegg til at det hjelper oss å forstå hvorfor selvspill og læreplanlæring er så nyttig for RL, hvorfor RLed-modeller er merkelig hakkete, og hvordan vi kan tenke annerledes om hva mennesker gjør. Lenke nedenfor.