Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
un modello forte può peggiorare nell'apprendere cose difficili man mano che diventa più sicuro.. perché le sue risposte sbagliate vengono spostate così in basso che i gradienti praticamente scompaiono
wmss rovescia il ciclo: alleni il modello forte contro il suo stesso checkpoint precedente, più debole, non solo contro le sue attuali previsioni
il checkpoint debole assegna ancora una probabilità non banale a risposte plausibili ma sbagliate.. allenarsi su quella distribuzione più morbida costringe il modello forte a continuare a separare corretto da quasi-corretto, invece di lucidare ciò che già crede
il documento riporta guadagni significativi in matematica + programmazione, con aumenti maggiori su set più difficili.. ma è stato testato intorno a 4b a 8b parametri, non a scala frontier (quindi non lo considero risolto)
l'implicazione poco discussa: ogni laboratorio serio ha già un cimitero di checkpoint intermedi da corse passate.. se l'apprendimento guidato da debole tiene a 70b+, i checkpoint "sprecati" diventano una risorsa di allenamento su cui sei già seduto
i modelli forti raggiungono un plateau quando smettono di dubitare di se stessi.. un modo pratico per andare avanti potrebbe essere farli discutere con il loro io passato 👀
link al documento: arxiv. org/abs/2602.08222

Principali
Ranking
Preferiti
