Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Cazzo santo… questo documento del MIT spiega silenziosamente come i modelli possano insegnarsi a ragionare quando sono completamente bloccati 🤯
L'idea centrale è ingannevolmente semplice:
Il ragionamento fallisce perché l'apprendimento non ha nulla su cui aggrapparsi.
Quando il tasso di successo di un modello scende vicino a zero, l'apprendimento per rinforzo smette di funzionare. Nessun segnale di ricompensa. Nessun gradiente. Nessun miglioramento. Il modello non è "scadente nel ragionamento" — è intrappolato oltre il limite dell'apprendibilità.
Questo documento riformula il problema.
Invece di chiedere "Come possiamo far risolvere al modello problemi più difficili?"
Chiedono: "Come può un modello creare problemi da cui può apprendere?"
È qui che entra in gioco SOAR.
SOAR divide un singolo modello pre-addestrato in due ruoli:
• Uno studente che affronta problemi target estremamente difficili
• Un insegnante che genera nuovi problemi di addestramento per lo studente
Ma la restrizione è brutale.
L'insegnante non viene mai premiato per domande intelligenti, diversità o realismo.
Viene premiato solo se le prestazioni dello studente migliorano su un insieme fisso di problemi di valutazione reali.
Nessun miglioramento? Nessuna ricompensa.
Questo cambia completamente le dinamiche.
...

Principali
Ranking
Preferiti
