Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La naiba... această lucrare de la MIT explică discret cum modelele pot învăța singure să raționeze atunci când sunt complet blocate 🤯
Ideea de bază este înșelător de simplă:
Raționamentul eșuează pentru că învățarea nu are de ce să se agațe.
Când rata de succes a unui model scade aproape de zero, învățarea prin întărire încetează să mai funcționeze. Niciun semnal de recompensă. Fără gradient. Nicio îmbunătățire. Modelul nu este "prost la raționament" — este blocat dincolo de limita învățabilității.
Această lucrare reformulează problema.
În loc să întrebăm "Cum facem modelul să rezolve probleme mai dificile?"
Ei întreabă: "Cum creează un model probleme din care poate învăța?"
Aici intervine SOAR.
SOAR împarte un singur model preantrenat în două roluri:
• Un elev care încearcă să abordeze probleme extrem de dificile
• Un profesor care generează noi probleme de instruire pentru elev
Dar constrângerea este brutală.
Profesorul nu este niciodată răsplătit pentru întrebări ingenioase, diversitate sau realism.
Este recompensat doar dacă performanța elevului se îmbunătățește la un set fix de probleme reale de evaluare.
Nicio îmbunătățire? Nicio recompensă.
Acest lucru schimbă complet dinamica.
...

Limită superioară
Clasament
Favorite
