Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek R1 ar putea fi prima dată când artefactul exact a primit trei rapoarte tehnice diferite – original, articolul *Nature* și o revizuire completă. Multe tehnici explicate aici, infrastructură, prompturi... Dar cel mai mare câștigător? @TheZvi! Ei *sunt* de fapt conștienți că siguranța există.


7 ian., 15:39
Lucrarea DeepSeek-R1 a fost actualizată acum 2 zile, extinzându-se de la 22 de pagini la 86 de pagini și adăugând o cantitate substanțială de detalii.
Noul conținut acoperă subiecte precum autoevoluția DeepSeek-R1-Zero, evaluarea DeepSeek-R1, analize suplimentare și distilarea DeepSeek-R1.
DeepSeek-R1: Stimularea capacității de raționament în LLM-uri prin învățare prin întărire
Hârtie:


Pe 31 ianuarie, @EpochAIResearch făcut o estimare pentru costurile RL care au intrat în R1. De la articolul din Nature știam că era de trei ori mai mare decât bugetul total. Greșit cum exact?
- S-a presupus că Batch = 1024 & Dimensiunea grupului = 64, ca în DeepSeekMath. De fapt: B=512, G=16.
- doar 1700 de pași pentru R1.


@EpochAIResearch, desigur, @EgeErdil2 este bine calibrat și atent epistemic, așa că știa exact ce este probabil să se întâmple

@EpochAIResearch @EgeErdil2 cred că ceea ce a greșit Ege a fost să subestimeze faptul că au fost foarte clari că nu a avut succes pe modelele mici (acum împărtășesc mai multe detalii; r1-lite-preview probabil a fost Qwen2.5-32B). Ergo V3 era mult mai eficient ca eșantion.
Un nivel meta anterior este mai interesant. Erau în urmă?


815
Limită superioară
Clasament
Favorite
