Kimse bunu doğru yapamadı. Aslında olan şey, daha önce ana ağırlıkların BF16'da olması ve bu yüzden LORA parametrelerinin %60'ının gradyanlarının ULP'den daha az olmasıydı