Проснулся с новостью о том, что мой новый PR был объединен в torchtitan. Он исправляет нестабильность в функции torch trunc_normal_ для bf16, которая искажала веса при инициализации, что приводило к большим активациям и нестабильному обучению.