Un model puternic poate deveni mai slab la învățarea lucrurilor dificile pe măsură ce capătă mai multă încredere... Pentru că răspunsurile greșite sunt împinse atât de jos, gradientele practic dispar WMSS răstoarnă bucla: antrenezi modelul puternic împotriva propriului său punct de control anterior, mai slab, nu doar împotriva predicțiilor actuale Punctul de control slab încă atribuie probabilitate netrivială răspunsurilor plauzibile, dar greșite... Antrenamentul pe acea distribuție mai blândă forțează modelul puternic să separe mereu corectul de aproape corect, în loc să șlefuiască ceea ce deja crede Lucrarea raportează progrese semnificative la matematică + programare, cu creșteri mai mari pe seturi mai dificile... Dar a fost testat în jurul parametrilor 4b până la 8b, nu la scara frontieră (deci nu tratez asta ca fiind stabilit). Implicația subdiscutată: Fiecare laborator serios are deja un cimitir de puncte intermediare de control din rundele anterioare... Dacă învățarea condusă de slăbiciune se menține la 70B+, punctele de control "irosite" devin o resursă de antrenament pe care deja o ai Modelele puternice stagnează când încetează să se îndoiască de ele însele... O cale practică de urmat ar putea fi să-i faci să se certe cu sinele 👀 lor din trecut Link către lucrare: arxiv. org/abs/2602.08222