FP16 kan ha et mindre trenings-inferensgap sammenlignet med BFloat16, og passer dermed bedre for RL. Selv forskjellen mellom RL-algoritmer forsvinner når FP16 er tatt i bruk. Overraskende!