Herregud... denna artikel från MIT förklarar tyst hur modeller kan lära sig att resonera när de är helt fastlåsta 🤯 Kärnidén är bedrägligt enkel: Resonemanget misslyckas eftersom lärandet inte har något att haka fast vid. När en modells framgångsfrekvens sjunker till nära noll slutar förstärkningsinlärning att fungera. Ingen belöningssignal. Ingen gradient. Ingen förbättring. Modellen är inte "dålig på att resonera" – den är fast bortom gränsen för inlärning. Denna artikel omformulerar problemet. Istället för att fråga "Hur får vi modellen att lösa svårare problem?" De frågar: "Hur skapar en modell problem den kan lära sig av?" Det är där SOAR kommer in. SOAR delar upp en enda förtränad modell i två roller: • En elev som försöker ta sig an extremt svåra problem • En lärare som genererar nya träningsproblem för eleven Men begränsningen är brutal. Läraren belönas aldrig för smarta frågor, mångfald eller realism. Det belönas endast om elevens prestation förbättras på en fast uppsättning verkliga utvärderingsuppgifter. Ingen förbättring? Ingen belöning. Detta förändrar dynamiken helt. ...