Yeni bir PR'imin Torchtitan'a birleştiğini fark ettim. Bf16 için torch trunc_normal_'deki kararsızlığı düzeltir; bu da başlangılda ağırlıkların çarpık olmasını sağlar; bu da büyük aktivasyonlara ve kararsız eğitime yol açar.