Herregud... denne artikkelen fra MIT forklarer stille hvordan modeller kan lære seg å resonnere når de sitter helt fast 🤯 Kjerneideen er tilsynelatende enkel: Resonnement feiler fordi læring ikke har noe å feste seg til. Når en modells suksessrate faller til nær null, slutter forsterkningslæring å fungere. Ingen belønningssignal. Ingen gradient. Ingen forbedring. Modellen er ikke «dårlig til å resonnere» — den er fanget utenfor grensen for lærbarhet. Denne artikkelen omformulerer problemet. I stedet for å spørre «Hvordan får vi modellen til å løse vanskeligere problemer?» De spør: «Hvordan skaper en modell problemer den kan lære av?» Det er her SOAR kommer inn. SOAR deler en enkelt forhåndstrent modell inn i to roller: • En elev som prøver seg på svært vanskelige oppgaver • En lærer som genererer nye treningsoppgaver for eleven Men begrensningen er brutal. Læreren blir aldri belønnet for smarte spørsmål, mangfold eller realisme. Det belønnes kun hvis elevens prestasjon forbedres på et fast sett med reelle evalueringsproblemer. Ingen forbedring? Ingen belønning. Dette endrer dynamikken fullstendig. ...