Terbangun dengan PR baru saya yang digabungkan ke dalam torchtitan. Ini memperbaiki ketidakstabilan dalam obor trunc_normal_ untuk bf16 yang memiringkan bobot pada inisialisasi, yang mengarah ke aktivasi besar dan pelatihan yang tidak stabil.