😅 Ai đã nói rằng "sử dụng k3 trong loss = sử dụng grad theo đường"??? Cách đúng để sử dụng k3 trong loss là sử dụng grad ĐẦY ĐỦ. GRPO đã sử dụng k3 mà không có IS-correction (= grad theo đường), điều này là sai. nhưng đó không phải là lỗi của k3!!!