Nytt blogginnlegg! Denne er en rent teoretisk som forsøker å identifisere den sentrale årsaken til at LLM-er lider av moduskollaps i RL og ikke klarer å generere nye eller virkelig varierte resultater. Det er faktisk et mye mer komplisert problem enn du tror! Naivt å oppmuntre til leting ved høyere temperaturer, regulering av utgangsentropi, pass@k beregninger etc. er ikke tilstrekkelig for å unngå flaskehalsende leting under RL. Artikkelen foreslår en ny teori om hvorfor dette er tilfelle og hvordan man kan løse det, nemlig ved å bruke desentralisert forsterkningslæring for å lage et "økosystem" av modeller i stedet for bare en sentralisert instans.