Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Non ho seguito da vicino il post-addestramento ultimamente, ma sembra che DeepSeek stia andando a pieno regime non conformista contro le norme della comunità:
- utilizza ancora GRPO, ma invece di utilizzare solo ricompense verificabili, usa modelli di ricompensa appropriati
- non si limita a tagliare più in alto + mantiene comunque il termine KL-divergence, ma lo fissa dai primi principi utilizzando l'estimatore K3 del 2020 di Schulman et al.
- non passa a fp32 durante l'inferenza né aggiunge kernel invarianti al batch come Thinky, e non si ossessiona per le stranezze off-policy – invece aggiunge una maschera binaria utilizzando KL-div come soglia per campioni negativi sospetti, in modo che il modello impari dai propri errori con un segnale più forte
- preserva lo stesso routing esperto, top-k e top-p durante l'inferenza come in fase di addestramento
Principali
Ranking
Preferiti

