DeepSeek R1 может стать первым случаем, когда точный артефакт получил три разных технических отчета – оригинальный, статью в *Nature* и полное пересмотрение. Здесь объяснено множество техник, инфраструктура, подсказки… Но кто главный победитель? @TheZvi! Они *на самом деле* осведомлены о том, что безопасность – это важно.
机器之心 JIQIZHIXIN
机器之心 JIQIZHIXIN7 янв., 15:39
Статья DeepSeek-R1 была обновлена 2 дня назад, увеличившись с 22 страниц до 86 страниц и добавив значительное количество деталей. Новый контент охватывает такие темы, как саморазвитие DeepSeek-R1-Zero, оценка DeepSeek-R1, дальнейший анализ и дистилляция DeepSeek-R1. DeepSeek-R1: Стимулирование способности рассуждения в LLM с помощью обучения с подкреплением Статья:
31 января @EpochAIResearch сделал оценку затрат на RL, которые вошли в R1. С момента публикации статьи в Nature мы знали, что это в 3 раза превышает общий бюджет. Как именно это неправильно? - Предположили, что Batch = 1024 и размер группы = 64, как в DeepSeekMath. На самом деле: B=512, G=16. - всего 1700 шагов для R1.
@EpochAIResearch конечно, @EgeErdil2 хорошо откалиброван и эпистемически осторожен, поэтому он точно знал, что, вероятно, произойдет
@EpochAIResearch @EgeErdil2 Я думаю, что Эге ошибся, недооценив, что они были очень ясны в том, что это не было успешным на малых моделях (они сейчас делятся более подробной информацией; r1-lite-preview, вероятно, был Qwen2.5-32B). Следовательно, Ergo V3 был гораздо более эффективным по количеству образцов. Метапредварительный уровень более интересен. Они отставали?
788