Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
een sterk model kan slechter worden in het leren van moeilijke dingen naarmate het zelfverzekerder wordt.. omdat de verkeerde antwoorden zo laag worden gedrukt dat de gradiënten in feite verdwijnen
wmss draait de cyclus om: je traint het sterke model tegen zijn eigen eerdere, zwakkere checkpoint, niet alleen tegen zijn huidige voorspellingen
de zwakke checkpoint kent nog steeds niet-triviale waarschijnlijkheid toe aan plausibele maar verkeerde antwoorden.. trainen op die zachtere verdeling dwingt het sterke model om correct van bijna-correct te blijven scheiden, in plaats van te polijsten wat het al gelooft
de paper meldt betekenisvolle verbeteringen op wiskunde + coderen, met grotere stijgingen op moeilijkere sets.. maar het werd getest rond 4b tot 8b parameters, niet op frontier schaal (dus ik beschouw dit niet als definitief)
de onderbelichte implicatie: elk serieus lab heeft al een begraafplaats van tussenliggende checkpoints van eerdere runs.. als zwak-gedreven leren standhoudt bij 70b+, worden "verspilde" checkpoints een trainingsbron waar je al op zit
sterke modellen komen tot stilstand wanneer ze stoppen met twijfelen aan zichzelf.. een praktische manier vooruit zou kunnen zijn om ze met hun verleden te laten discussiëren 👀
link naar paper: arxiv. org/abs/2602.08222

Boven
Positie
Favorieten
