een sterk model kan slechter worden in het leren van moeilijke dingen naarmate het zelfverzekerder wordt.. omdat de verkeerde antwoorden zo laag worden gedrukt dat de gradiënten in feite verdwijnen wmss draait de cyclus om: je traint het sterke model tegen zijn eigen eerdere, zwakkere checkpoint, niet alleen tegen zijn huidige voorspellingen de zwakke checkpoint kent nog steeds niet-triviale waarschijnlijkheid toe aan plausibele maar verkeerde antwoorden.. trainen op die zachtere verdeling dwingt het sterke model om correct van bijna-correct te blijven scheiden, in plaats van te polijsten wat het al gelooft de paper meldt betekenisvolle verbeteringen op wiskunde + coderen, met grotere stijgingen op moeilijkere sets.. maar het werd getest rond 4b tot 8b parameters, niet op frontier schaal (dus ik beschouw dit niet als definitief) de onderbelichte implicatie: elk serieus lab heeft al een begraafplaats van tussenliggende checkpoints van eerdere runs.. als zwak-gedreven leren standhoudt bij 70b+, worden "verspilde" checkpoints een trainingsbron waar je al op zit sterke modellen komen tot stilstand wanneer ze stoppen met twijfelen aan zichzelf.. een praktische manier vooruit zou kunnen zijn om ze met hun verleden te laten discussiëren 👀 link naar paper: arxiv. org/abs/2602.08222