😅 qui a dit que "utiliser k3 dans la perte = utiliser le grad par chemin"??? la bonne façon d'utiliser k3 dans la perte est d'utiliser le grad COMPLET. OG GRPO a utilisé k3 sans correction IS (= grad par chemin), ce qui est faux. mais ce n'est pas la faute de k3!!!