DeepSeek R1 potrebbe essere la prima volta che l'esatto artefatto è stato oggetto di tre diversi rapporti tecnici – originale, articolo su *Nature* e una revisione completa. Molte tecniche spiegate qui, infra, prompt… Ma il vincitore più grande? @TheZvi! Sono *in effetti* consapevoli che la sicurezza è una cosa.
机器之心 JIQIZHIXIN
机器之心 JIQIZHIXIN7 gen, 15:39
Il documento di DeepSeek-R1 è stato aggiornato 2 giorni fa, espandendosi da 22 pagine a 86 pagine e aggiungendo una quantità sostanziale di dettagli. Il nuovo contenuto copre argomenti come l'auto-evoluzione di DeepSeek-R1-Zero, la valutazione di DeepSeek-R1, ulteriori analisi e la distillazione di DeepSeek-R1. DeepSeek-R1: Incentivare la capacità di ragionamento negli LLM tramite l'apprendimento per rinforzo Documento:
Il 31 gennaio, @EpochAIResearch ha fatto una stima dei costi di RL che sono stati inclusi in R1. Dall'articolo di Nature sapevamo che era 3 volte il budget totale. Sbagliato in che modo esattamente? - Assunto Batch = 1024 e Dimensione gruppo = 64, come in DeepSeekMath. In realtà: B=512, G=16. - solo 1700 passi per R1.
@EpochAIResearch ovviamente @EgeErdil2 è ben calibrato e epistemicamente attento, quindi sapeva esattamente cosa è probabile che accada
@EpochAIResearch @EgeErdil2 Penso che ciò che Ege ha fatto di sbagliato sia stato sottovalutare che erano molto chiari sul fatto che non era riuscito con modelli piccoli (ora condividono più dettagli; r1-lite-preview era probabilmente Qwen2.5-32B). Ergo V3 era molto più efficiente in termini di campioni. Un prior a livello meta è più interessante. Erano in ritardo?
812