Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek R1 kan vara första gången den exakta artefakten fick tre olika tekniska rapporter – originalet, *Nature*-artikeln och en fullständig revision. Många tekniker förklaras här, infra, promptar... Men den största vinnaren? @TheZvi! De *är* faktiskt medvetna om att säkerhet är en sak.


7 jan. 15:39
DeepSeek-R1:s artikel uppdaterades för 2 dagar sedan, utökades från 22 sidor till 86 sidor och lade till en betydande mängd detaljer.
Det nya innehållet täcker ämnen som självutvecklingen av DeepSeek-R1-Zero, utvärdering av DeepSeek-R1, vidare analys och destillation av DeepSeek-R1.
DeepSeek-R1: Incitamentsförmåga att resonera i LLM:er via förstärkningsinlärning
Papper:


Den 31 januari gjorde @EpochAIResearch en uppskattning av kostnaderna för RL som gick in i R1. Sedan Nature-artikeln visste vi att det var tre gånger den totala budgeten. Fel hur exakt?
- Antagen batch = 1024 & Gruppstorlek = 64, som i DeepSeekMath. Verkligen: B=512, G=16.
- endast 1700 steg för R1.


@EpochAIResearch förstås är @EgeErdil2 välkalibrerad och epistemiskt noggrann, så han visste exakt vad som sannolikt skulle hända

@EpochAIResearch @EgeErdil2 jag tror att det Ege gjorde fel var att underskatta att de var väldigt tydliga med att det inte var framgångsrikt på små modeller (de delar fler detaljer nu; r1-lite-preview var troligen Qwen2.5-32B). Ergo V3 var mycket mer samplingseffektiv.
En meta-nivå före är mer intressant. Låg de efter?


872
Topp
Rankning
Favoriter
