Mi sono svegliato con una mia nuova PR fusa in torchtitan. Risolve un'instabilità in torch trunc_normal_ per bf16 che distorceva i pesi all'inizializzazione, portando a grandi attivazioni e a un addestramento instabile.