😅 Vem sa att "använda K3 i förlust = använda path-wise grad"??? det korrekta sättet att använda k3 i förlust är att använda FULL grad. och GRPO använde k3 utan IS-korrigering (= vägvis-grad), vilket är fel. Men det är inte K3:s fel!!