Прокинувся від того, що мій новий PR об'єднали з torchtitan. Він виправляє нестабільність у trunc_normal_ факела для bf16, яка викривляла ваги при ініціалізації, що призводило до великих активацій і нестабільного тренування.