Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nový blogpost po dlouhé době! V tomto seriálu budu mluvit o tom, jak řešit zpětnovazební učení pro úlohy s dlouhým horizontem, postupně z těch nejpřímočařejších přístupů. (odkaz v odpovědích!)
v první části této série házíme RL na kostku v její nejpřímější, nepřikrášlené podobě a děláme ze samotného selhání zbraň. cílem tohoto blogu je sledovat střelbu RL footgunů ve zpomaleném záběru a zjistit, jak se řídkost odměny změní v noční můru kolapsu politiky, proč se průzkum může udusit v prostorech s dlouhým horizontem a co se děje v zákulisí, když model zní sebevědomě, ale zůstává v podstatě ztracen!
Zvláštní poděkování patří @willccbb a @PrimeIntellect za sponzorování tohoto :) Verifiers je neuvěřitelný nástroj a já jim přeji to nejlepší.

Top
Hodnocení
Oblíbené

