Nový blogpost po dlouhé době! V tomto seriálu budu mluvit o tom, jak řešit zpětnovazební učení pro úlohy s dlouhým horizontem, postupně z těch nejpřímočařejších přístupů. (odkaz v odpovědích!) v první části této série házíme RL na kostku v její nejpřímější, nepřikrášlené podobě a děláme ze samotného selhání zbraň. cílem tohoto blogu je sledovat střelbu RL footgunů ve zpomaleném záběru a zjistit, jak se řídkost odměny změní v noční můru kolapsu politiky, proč se průzkum může udusit v prostorech s dlouhým horizontem a co se děje v zákulisí, když model zní sebevědomě, ale zůstává v podstatě ztracen! Zvláštní poděkování patří @willccbb a @PrimeIntellect za sponzorování tohoto :) Verifiers je neuvěřitelný nástroj a já jim přeji to nejlepší.