Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
6 måneder etter papirutgivelsen vår husker jeg fortsatt debattene om å fjerne lengdenormaliseringsbegrepet i DrGRPO. Og folk tror gradvis at DrGRPO bare handler om å fjerne kjønnssykdommen, og ignorerer den viktigste og mest subtile (lengde) skjevheten vi prøvde å påpeke for samfunnet.
Selv nå deler mange artikler (og åpen kildekode) fortsatt policygradienttapet med svarlengden – tar gjennomsnittet i stedet for summen ...
Heldigvis, med Tinkers implementering som referanse, håper jeg det vil være mer overbevisende for OSS-fellesskapet å ta i bruk den objektive RL-tapsberegningen.
Så takknemlig til Thinking Machines for å flytte grensene for åpen vitenskap 🚀

Topp
Rangering
Favoritter