En stark modell kan bli sämre på att lära sig svåra saker ju mer självsäker den blir... Eftersom dess felaktiga svar trycks så lågt försvinner gradienterna i princip WMS vänder på loopen: du tränar den starka modellen mot dess egen tidigare, svagare kontrollpunkt, inte bara dess nuvarande förutsägelser Den svaga kontrollpunkten tilldelar fortfarande icke-trivial sannolikhet till trovärdiga men felaktiga svar.. Träning på den mjukare fördelningen tvingar den starka modellen att fortsätta separera rätt från nästan-korrekt, istället för att finslipa det den redan tror på Artikeln rapporterar meningsfulla framsteg i matematik + kodning, med större lyft på svårare mängder.. Men det testades runt 4 till 8 miljarder parametrar, inte gränsskala (så jag betraktar inte detta som avgjort). Den underdiskuterade implikationen: Varje seriöst laboratorium har redan en kyrkogård av mellanliggande kontrollpunkter från tidigare körningar.. Om svagt driven inlärning håller på 70B+ blir "bortslösade" checkpoints en träningsresurs du redan sitter på starka modeller når en platå när de slutar tvivla på sig själva.. Ett praktiskt sätt framåt kan vara att få dem att argumentera med sitt tidigare jag 👀 Länk till artikel: ARXIV. org/abs/2602.08222