Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nytt blogginnlegg! Denne er en rent teoretisk som forsøker å identifisere den sentrale årsaken til at LLM-er lider av moduskollaps i RL og ikke klarer å generere nye eller virkelig varierte resultater. Det er faktisk et mye mer komplisert problem enn du tror!
Naivt å oppmuntre til leting ved høyere temperaturer, regulering av utgangsentropi, pass@k beregninger etc. er ikke tilstrekkelig for å unngå flaskehalsende leting under RL.
Artikkelen foreslår en ny teori om hvorfor dette er tilfelle og hvordan man kan løse det, nemlig ved å bruke desentralisert forsterkningslæring for å lage et "økosystem" av modeller i stedet for bare en sentralisert instans.

Topp
Rangering
Favoritter

