DeepSeek R1 可能是第一次有确切的文物获得三份不同的技术报告——原始报告、*Nature* 文章和完整修订。这里解释了很多技术、基础设施、提示……但最大的赢家是谁?@TheZvi!他们确实意识到安全是一个问题。
机器之心 JIQIZHIXIN
机器之心 JIQIZHIXIN1月7日 15:39
DeepSeek-R1 的论文在 2 天前更新,从 22 页扩展到 86 页,并增加了大量细节。 新内容涵盖了诸如 DeepSeek-R1-Zero 的自我演化、DeepSeek-R1 的评估、进一步分析以及 DeepSeek-R1 的蒸馏等主题。 DeepSeek-R1:通过强化学习激励 LLM 的推理能力 论文:
在1月31日,@EpochAIResearch 对R1的RL成本进行了估算。自从Nature论文发布以来,我们知道这比总预算高出3倍。到底错在哪里? - 假设批量 = 1024 和组大小 = 64,正如在DeepSeekMath中所示。实际上:B=512,G=16。 - R1仅有1700步。
@EpochAIResearch 当然 @EgeErdil2 是经过良好校准且具有认知谨慎的人,所以他确切知道可能会发生什么
@EpochAIResearch @EgeErdil2 我认为Ege做错的地方是低估了他们非常明确地表示在小模型上并不成功(他们现在分享了更多细节;r1-lite-preview可能是Qwen2.5-32B)。因此,V3的样本效率要高得多。 一个元层次的先验更有趣。他们落后了吗?
842