BF16 -> FP16 は、推論とトレーニングの不一致に対する非常に単純な (Oat の 1 つの構成変更) でありながら根本的な修正です。 FP16では、最も基本的な重要度サンプリングPGがBF16のすべてのアルゴリズム修正よりも優れています。精度の観点からRLの安定性を再考してみましょう。 🔎