Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek R1 potrebbe essere la prima volta che l'esatto artefatto è stato oggetto di tre diversi rapporti tecnici – originale, articolo su *Nature* e una revisione completa. Molte tecniche spiegate qui, infra, prompt… Ma il vincitore più grande? @TheZvi! Sono *in effetti* consapevoli che la sicurezza è una cosa.


7 gen, 15:39
Il documento di DeepSeek-R1 è stato aggiornato 2 giorni fa, espandendosi da 22 pagine a 86 pagine e aggiungendo una quantità sostanziale di dettagli.
Il nuovo contenuto copre argomenti come l'auto-evoluzione di DeepSeek-R1-Zero, la valutazione di DeepSeek-R1, ulteriori analisi e la distillazione di DeepSeek-R1.
DeepSeek-R1: Incentivare la capacità di ragionamento negli LLM tramite l'apprendimento per rinforzo
Documento:


Il 31 gennaio, @EpochAIResearch ha fatto una stima dei costi di RL che sono stati inclusi in R1. Dall'articolo di Nature sapevamo che era 3 volte il budget totale. Sbagliato in che modo esattamente?
- Assunto Batch = 1024 e Dimensione gruppo = 64, come in DeepSeekMath. In realtà: B=512, G=16.
- solo 1700 passi per R1.


@EpochAIResearch ovviamente @EgeErdil2 è ben calibrato e epistemicamente attento, quindi sapeva esattamente cosa è probabile che accada

@EpochAIResearch @EgeErdil2 Penso che ciò che Ege ha fatto di sbagliato sia stato sottovalutare che erano molto chiari sul fatto che non era riuscito con modelli piccoli (ora condividono più dettagli; r1-lite-preview era probabilmente Qwen2.5-32B). Ergo V3 era molto più efficiente in termini di campioni.
Un prior a livello meta è più interessante. Erano in ritardo?


812
Principali
Ranking
Preferiti
