DeepSeek-R1 的论文在 2 天前更新,从 22 页扩展到 86 页,并增加了大量细节。 新内容涵盖了诸如 DeepSeek-R1-Zero 的自我演化、DeepSeek-R1 的评估、进一步分析以及 DeepSeek-R1 的蒸馏等主题。 DeepSeek-R1:通过强化学习激励 LLM 的推理能力 论文: