Werd wakker met een nieuwe PR van mij die is samengevoegd in torchtitan. Het verhelpt een instabiliteit in torch trunc_normal_ voor bf16 die gewichten bij de initialisatie vervormde, wat leidde tot grote activaties en onbetrouwbare training.