Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nuovo post sul blog. Recentemente, le persone hanno parlato di quanto ci voglia molta più potenza di calcolo per ottenere un singolo campione in RL rispetto a quanto avviene nel pretraining.
Ma questo è solo metà del problema.
In RL, quel campione costoso ti fornisce anche di solito molti meno bit.
E questo ha implicazioni su quanto bene RLVR si scalerà, oltre ad aiutarci a capire perché il self-play e l'apprendimento curricolare siano così utili per RL, perché i modelli RLed sono bizzarramente frastagliati e come possiamo pensare a cosa fanno gli esseri umani in modo diverso.
Link qui sotto.

Principali
Ranking
Preferiti

