DeepSeek R1 може стати першим випадком, коли саме цей артефакт отримав три різні технічні звіти – оригінальний, стаття *Nature* та повну редакцію. Тут пояснено багато технік, інфра, підказки... Але найбільший переможець? @TheZvi! Вони *насправді* усвідомлюють, що безпека — це річ.
机器之心 JIQIZHIXIN
机器之心 JIQIZHIXIN7 січ., 15:39
Статтю DeepSeek-R1 оновили 2 дні тому, розширивши сторінки з 22 до 86 сторінок і додавши значну кількість деталей. Новий контент охоплює такі теми, як самоеволюція DeepSeek-R1-Zero, оцінка DeepSeek-R1, подальший аналіз та дистиляція DeepSeek-R1. DeepSeek-R1: Стимулювання здатності до мислення в LLM через навчання на основі підкріплення Стаття:
31 січня @EpochAIResearch зробив кошторис витрат на RL, який увійшов у R1. З часів газети в Nature ми знали, що це втричі більший загальний бюджет. Як саме помилятися? - Припущена партія = 1024 та розмір групи = 64, як у DeepSeekMath. Насправді: B=512, G=16. - лише 1700 сходинок для R1.
@EpochAIResearch звісно, @EgeErdil2 добре відкалібрований і епістемічно обережний, тому він точно знав, що, ймовірно, станеться
@EpochAIResearch @EgeErdil2 я думаю, що Ege зробив неправильно, так це недооцінили, що вони чітко показали, що це не було успішно на малих моделях (зараз вони діляться більше деталей; r1-lite-preview був, ймовірно, Qwen2.5-32B). Ergo V3 був значно ефективнішим у використанні семплів. Мета-рівень апріору цікавіший. Вони відстають?
960