Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek R1 може стати першим випадком, коли саме цей артефакт отримав три різні технічні звіти – оригінальний, стаття *Nature* та повну редакцію. Тут пояснено багато технік, інфра, підказки... Але найбільший переможець? @TheZvi! Вони *насправді* усвідомлюють, що безпека — це річ.


7 січ., 15:39
Статтю DeepSeek-R1 оновили 2 дні тому, розширивши сторінки з 22 до 86 сторінок і додавши значну кількість деталей.
Новий контент охоплює такі теми, як самоеволюція DeepSeek-R1-Zero, оцінка DeepSeek-R1, подальший аналіз та дистиляція DeepSeek-R1.
DeepSeek-R1: Стимулювання здатності до мислення в LLM через навчання на основі підкріплення
Стаття:


31 січня @EpochAIResearch зробив кошторис витрат на RL, який увійшов у R1. З часів газети в Nature ми знали, що це втричі більший загальний бюджет. Як саме помилятися?
- Припущена партія = 1024 та розмір групи = 64, як у DeepSeekMath. Насправді: B=512, G=16.
- лише 1700 сходинок для R1.


@EpochAIResearch звісно, @EgeErdil2 добре відкалібрований і епістемічно обережний, тому він точно знав, що, ймовірно, станеться

@EpochAIResearch @EgeErdil2 я думаю, що Ege зробив неправильно, так це недооцінили, що вони чітко показали, що це не було успішно на малих моделях (зараз вони діляться більше деталей; r1-lite-preview був, ймовірно, Qwen2.5-32B). Ergo V3 був значно ефективнішим у використанні семплів.
Мета-рівень апріору цікавіший. Вони відстають?


960
Найкращі
Рейтинг
Вибране
