Tôi đã thức dậy với một PR mới của mình được hợp nhất vào torchtitan. Nó sửa một sự không ổn định trong torch trunc_normal_ cho bf16, làm lệch trọng số khi khởi tạo, dẫn đến các kích hoạt lớn và việc đào tạo không ổn định.