BF16 -> FP16, çıkarım eğitimi uyumsuzluğu için çok basit (Yulaf'ta bir konfigürasyon değişikliği) ancak temel bir düzeltmedir. FP16 ile en temel önem örneklemesi PG, BF16'daki tüm algoritmik düzeltmelerden daha iyi performans gösterir. RL kararlılığını hassasiyet perspektifinden yeniden düşünelim. 🔎