BF16 -> FP16 是一个如此简单(在 Oat 中只需更改一个配置)但又根本性的修复,解决了推理与训练的不匹配。 使用 FP16,最基本的重要性采样 PG 超越了 BF16 中所有的算法修复。让我们从精度的角度重新思考 RL 稳定性。🔎