Магазин DApp | Центр Web3 для подій та ігор

DeepSeek R1 може стати першим випадком, коли саме цей артефакт отримав три різні технічні звіти – оригінальний, стаття *Nature* та повну редакцію. Тут пояснено багато технік, інфра, підказки... Але найбільший переможець? @TheZvi! Вони *насправді* усвідомлюють, що безпека — це річ.

31 січня @EpochAIResearch зробив кошторис витрат на RL, який увійшов у R1. З часів газети в Nature ми знали, що це втричі більший загальний бюджет. Як саме помилятися? - Припущена партія = 1024 та розмір групи = 64, як у DeepSeekMath. Насправді: B=512, G=16. - лише 1700 сходинок для R1.

@EpochAIResearch звісно, @EgeErdil2 добре відкалібрований і епістемічно обережний, тому він точно знав, що, ймовірно, станеться

@EpochAIResearch @EgeErdil2 я думаю, що Ege зробив неправильно, так це недооцінили, що вони чітко показали, що це не було успішно на малих моделях (зараз вони діляться більше деталей; r1-lite-preview був, ймовірно, Qwen2.5-32B). Ergo V3 був значно ефективнішим у використанні семплів. Мета-рівень апріору цікавіший. Вони відстають?