Nytt blogginnlegg etter lang tid! I denne serien vil jeg snakke om hvordan man løser forsterkende læring for langsiktige oppgaver, trinnvis fra de mest enkle tilnærmingene. (lenke i svar!) i del I av denne serien kaster vi RL på kuben i sin mest direkte, usminkede form og bevæpner selve fiaskoen. målet med denne bloggen er å se RL-fotgeværene skyte i sakte film og se hvordan belønningssparsitet blir til et mareritt for politisk kollaps, hvorfor utforskning kan kveles i rom med lang horisont, og hva som skjer bak kulissene når en modell høres selvsikker ut mens den forblir fundamentalt fortapt! Spesiell takk til @willccbb og @PrimeIntellect for å sponse denne :) Verifikatorer er et utrolig verktøy, og jeg ønsker dem det beste.