我最喜欢的两篇DeepSeek论文的部分是那些关于超参数的页面。这使得在有意义的规模上实际重现(尝试)这些论文成为可能。