Niemand hat das richtig verstanden. Was tatsächlich passiert ist, war, dass die Master-Gewichte zuvor in bf16 waren und die Gradienten für 60 % der Lora-Parameter geringer waren als der ULP.