😅 Siapa yang mengatakan bahwa "menggunakan K3 dalam Loss = menggunakan Path-wise Grad"??? cara yang benar untuk menggunakan k3 dalam kerugian adalah dengan menggunakan grad FULL. og GRPO menggunakan k3 tanpa koreksi IS (= grad jalur), yang salah. Tapi itu bukan salah K3!!