Ingen fick det här rätt. Det som faktiskt hände var att huvudvikterna tidigare var i BF16 och därför var gradienterna för 60 % av Lora-parametrarna mindre än ULP