Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek R1 может стать первым случаем, когда точный артефакт получил три разных технических отчета – оригинальный, статью в *Nature* и полное пересмотрение. Здесь объяснено множество техник, инфраструктура, подсказки… Но кто главный победитель? @TheZvi! Они *на самом деле* осведомлены о том, что безопасность – это важно.


7 янв., 15:39
Статья DeepSeek-R1 была обновлена 2 дня назад, увеличившись с 22 страниц до 86 страниц и добавив значительное количество деталей.
Новый контент охватывает такие темы, как саморазвитие DeepSeek-R1-Zero, оценка DeepSeek-R1, дальнейший анализ и дистилляция DeepSeek-R1.
DeepSeek-R1: Стимулирование способности рассуждения в LLM с помощью обучения с подкреплением
Статья:


31 января @EpochAIResearch сделал оценку затрат на RL, которые вошли в R1. С момента публикации статьи в Nature мы знали, что это в 3 раза превышает общий бюджет. Как именно это неправильно?
- Предположили, что Batch = 1024 и размер группы = 64, как в DeepSeekMath. На самом деле: B=512, G=16.
- всего 1700 шагов для R1.


@EpochAIResearch конечно, @EgeErdil2 хорошо откалиброван и эпистемически осторожен, поэтому он точно знал, что, вероятно, произойдет

@EpochAIResearch @EgeErdil2 Я думаю, что Эге ошибся, недооценив, что они были очень ясны в том, что это не было успешным на малых моделях (они сейчас делятся более подробной информацией; r1-lite-preview, вероятно, был Qwen2.5-32B). Следовательно, Ergo V3 был гораздо более эффективным по количеству образцов.
Метапредварительный уровень более интересен. Они отставали?


788
Топ
Рейтинг
Избранное
