Cazzo santo… questo documento del MIT spiega silenziosamente come i modelli possano insegnarsi a ragionare quando sono completamente bloccati 🤯 L'idea centrale è ingannevolmente semplice: Il ragionamento fallisce perché l'apprendimento non ha nulla su cui aggrapparsi. Quando il tasso di successo di un modello scende vicino a zero, l'apprendimento per rinforzo smette di funzionare. Nessun segnale di ricompensa. Nessun gradiente. Nessun miglioramento. Il modello non è "scadente nel ragionamento" — è intrappolato oltre il limite dell'apprendibilità. Questo documento riformula il problema. Invece di chiedere "Come possiamo far risolvere al modello problemi più difficili?" Chiedono: "Come può un modello creare problemi da cui può apprendere?" È qui che entra in gioco SOAR. SOAR divide un singolo modello pre-addestrato in due ruoli: • Uno studente che affronta problemi target estremamente difficili • Un insegnante che genera nuovi problemi di addestramento per lo studente Ma la restrizione è brutale. L'insegnante non viene mai premiato per domande intelligenti, diversità o realismo. Viene premiato solo se le prestazioni dello studente migliorano su un insieme fisso di problemi di valutazione reali. Nessun miglioramento? Nessuna ricompensa. Questo cambia completamente le dinamiche. ...