NeurIPS 2025 论文由 Qwen 团队撰写: 超越 80/20 法则:高熵少数代币驱动 LLM 推理的有效强化学习 TLDR:在类似 GRPO 的 RLVR 中,您应该仅对 20% 的高熵代币应用损失。 [1/7]