😅 quem disse que "usar k3 na perda = usar gradiente por caminho"??? a maneira correta de usar k3 na perda é usar o gradiente COMPLETO. o GRPO usou k3 sem correção IS (= gradiente por caminho), o que está errado. mas não é culpa do k3!!!