không ai làm đúng điều này. Điều thực sự xảy ra là trước đây các trọng số chính được ở định dạng bf16 và do đó các gradient cho 60% các tham số lora thấp hơn ulp.