FP16 může mít menší mezeru mezi tréninkem a inferencí ve srovnání s BFloat16, takže se lépe hodí pro RL. Dokonce i rozdíl mezi algoritmy RL zmizí, jakmile je přijat FP16. Překvapivý!