😅 誰說過「在損失中使用 k3 = 使用路徑導數」??? 正確使用 k3 在損失中的方法是使用完整的導數。 而 GRPO 使用 k3 而不進行 IS 修正(= 路徑導數),這是錯誤的。但這不是 k3 的錯!!!