Nouveau record de vitesse NanoGPT à 113,7 (-1,4s) de @ChrisJMcCormick, avec une banque de paramètres pour centraliser certains paramètres par couche, Adam optimisé, augmentation de la précision du tampon ema, et matrices de porte de Muon à Adam. Les scientifiques affirment que les records doivent s'arrêter après avoir atteint 0s.