说(当前)现实很糟糕 说我们需要PRMs和对抗训练(即:MuZero) 哀叹熵崩溃并解释在训练和采样中保持熵的必要性 想要稀疏注意力(以及在kvcache上稀疏层)