😅 「損失にK3を使う=経路面のグラデーションを使う」と言った人はいますか??? 損失でK3を使う正しい方法は、フルグラデーションを使うことです。 元のGRPOではIS補正なしのk3(=経路方向の勾配)を使いましたが、これは誤りです。でもK3のせいじゃない!!