Vahva malli voi huonontua vaikeiden asioiden oppimisessa, kun siitä tulee itsevarmuutta.. Koska väärät vastaukset työnnetään niin alas, että liukuvärit käytännössä katoavat WMSS kääntää kierteen: koulutat vahvaa mallia sen aiemman, heikomman tarkistuspisteen mukaan, et pelkästään nykyisiä ennusteita vastaan Heikko tarkistuspiste antaa edelleen ei-triviaalin todennäköisyyden uskottaville mutta väärille vastauksille.. Koulutus pehmeämmällä jakaumalla pakottaa vahvan mallin jatkamaan oikean ja lähes oikean erottamista sen sijaan, että se hioisi jo uskomaansa Artikkeli raportoi merkittäviä edistysaskeleita matematiikassa + koodauksessa, ja suurempia nostoja vaikeammilla joukoilla.. Mutta sitä testattiin noin 4B–8B parametreilla, ei Frontier-asteikolla (joten en pidä tätä ratkaisuna) aliarvioitu johtopäätös: jokaisessa vakavassa laboratoriossa on jo hautausmaa väli-tarkastuspisteitä aiemmilta ajoilta.. Jos heikko oppiminen pysyy 70B+:ssa, "hukkaan heitetyistä" tarkistuspisteistä tulee koulutusresurssi, jonka varalla jo istut Vahvat mallit pysähtyvät, kun he lakkaavat epäilemästä itseään.. Yksi käytännöllinen tapa eteenpäin voisi olla saada heidät väittelemään menneisyyden itsensä 👀 kanssa Linkki artikkeliin: arxiv. org/abs/2602.08222