Não acompanhei de perto o pós-treinamento ultimamente, mas parece que a DeepSeek está indo totalmente contra as normas da comunidade: - ainda usa GRPO, mas em vez de apenas recompensas verificáveis, usa modelos de recompensa adequados - não apenas corta mais alto + ainda mantém o termo de divergência KL, mas o corrige a partir dos primeiros princípios usando o estimador K3 de 2020 de Schulman et al. - não muda para fp32 na inferência nem adiciona kernels invariantes em lote como o Thinky, e não se obceca com peculiaridades fora da política – em vez disso, adiciona uma máscara binária usando KL-div como limiar para amostras negativas suspeitas, para que o modelo aprenda com seus próprios erros com um sinal mais forte - preserva o mesmo roteamento especialista, top-k e top-p durante a inferência que no treinamento