Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
En sterk modell kan bli dårligere på å lære vanskelige ting jo mer den blir selvsikker.. Fordi feil svar blir presset så lavt at gradientene i praksis forsvinner
WMS snur løkken: Du trener den sterke modellen mot dens egen tidligere, svakere sjekkpunkt, ikke bare dens nåværende prediksjoner
Det svake sjekkpunktet tildeler fortsatt ikke-triviell sannsynlighet til plausible, men feil svar.. Trening på den mykere fordelingen tvinger den sterke modellen til å fortsette å skille riktig fra nesten-korrekt, i stedet for å polere det den allerede tror på
Artikkelen rapporterer meningsfulle gevinster i matematikk + koding, med større løft på vanskeligere sett.. Men det ble testet rundt 4b til 8b parametere, ikke grenseskala (så jeg regner ikke dette som avgjort).
Den underdiskuterte implikasjonen: Hvert seriøst laboratorium har allerede en gravplass av mellomliggende sjekkpunkter fra tidligere kjøringer.. Hvis svak drevet læring holder seg på 70B+, blir "bortkastede" sjekkpunkter en treningsressurs du allerede sitter på
sterke modeller flater ut når de slutter å tvile på seg selv.. En praktisk vei videre kan være å få dem til å krangle med sitt tidligere jeg 👀
Lenke til artikkel: ARXIV. org/abs/2602.08222

Topp
Rangering
Favoritter
