DeepSeek R1 kan vara första gången den exakta artefakten fick tre olika tekniska rapporter – originalet, *Nature*-artikeln och en fullständig revision. Många tekniker förklaras här, infra, promptar... Men den största vinnaren? @TheZvi! De *är* faktiskt medvetna om att säkerhet är en sak.
机器之心 JIQIZHIXIN
机器之心 JIQIZHIXIN7 jan. 15:39
DeepSeek-R1:s artikel uppdaterades för 2 dagar sedan, utökades från 22 sidor till 86 sidor och lade till en betydande mängd detaljer. Det nya innehållet täcker ämnen som självutvecklingen av DeepSeek-R1-Zero, utvärdering av DeepSeek-R1, vidare analys och destillation av DeepSeek-R1. DeepSeek-R1: Incitamentsförmåga att resonera i LLM:er via förstärkningsinlärning Papper:
Den 31 januari gjorde @EpochAIResearch en uppskattning av kostnaderna för RL som gick in i R1. Sedan Nature-artikeln visste vi att det var tre gånger den totala budgeten. Fel hur exakt? - Antagen batch = 1024 & Gruppstorlek = 64, som i DeepSeekMath. Verkligen: B=512, G=16. - endast 1700 steg för R1.
@EpochAIResearch förstås är @EgeErdil2 välkalibrerad och epistemiskt noggrann, så han visste exakt vad som sannolikt skulle hända
@EpochAIResearch @EgeErdil2 jag tror att det Ege gjorde fel var att underskatta att de var väldigt tydliga med att det inte var framgångsrikt på små modeller (de delar fler detaljer nu; r1-lite-preview var troligen Qwen2.5-32B). Ergo V3 var mycket mer samplingseffektiv. En meta-nivå före är mer intressant. Låg de efter?
872