BF16 -> FP16 adalah perbaikan yang sederhana (satu perubahan konfigurasi di Oat) namun mendasar untuk ketidakcocokan pelatihan inferensi. Dengan FP16, pengambilan sampel PG yang paling penting mengungguli semua perbaikan algoritmik di BF16. Mari kita pikirkan kembali stabilitas RL dari perspektif presisi. 🔎