FP16 kann eine kleinere Trainings-Inferenz-Lücke im Vergleich zu BFloat16 aufweisen, wodurch es besser für RL geeignet ist. Sogar der Unterschied zwischen RL-Algorithmen verschwindet, sobald FP16 übernommen wird. Überraschend!