Nový blogový příspěvek. V poslední době se mluví o tom, že získání jediného vzorku v reálném životě vyžaduje mnohem více výpočetního úsilí než při předškolení. Ale to je jen polovina problémů. V reálném životě vám ten drahý vzorek obvykle dává mnohem méně bitů. A to má dopad na to, jak dobře se RLVR bude škálovat, a navíc nám pomáhá pochopit, proč je samohraní a učení podle kurikula tak užitečné pro RL, proč jsou RLed modely podivně zubaté a jak můžeme přemýšlet o tom, co lidé dělají jinak. Odkaz níže.