Nouveau record de vitesse NanoGPT à 112,7 (-1,0s), avec des poids en bfloat16 et 16 bits supplémentaires dans l'optimiseur et des communications entrelacées. Inspiration de @YouJiacheng et @ChrisJMcCormick. De plus, l'optimiseur Adam, qui fait des pas deux fois moins souvent que Muon, a lm_head beta1=0,5.