Me desperté con un nuevo PR mío siendo fusionado en torchtitan. Corrige una inestabilidad en torch trunc_normal_ para bf16 que sesgaba los pesos en la inicialización, lo que llevaba a grandes activaciones y un entrenamiento inestable.