No he seguido de cerca la formación post-formación últimamente, pero parece que DeepSeek está yendo completamente inconformista contra las normas comunitarias: - sigue usando GRPO, pero en lugar de solo recompensas verificables usa modelos de recompensa adecuados - no solo recorta más alto + mantiene el término de divergencia KL, sino que lo corrige desde principios básicos usando el estimador K3 2020 de Schulman et al. - no cambia a fp32 en la inferencia ni añade kernels invariantes por lotes como Thinky, y no se obsesiona con peculiaridades fuera de la política – en su lugar añade una máscara binaria usando KL-div como umbral para muestras negativas sospechosas, para que el modelo aprenda de sus propios errores con una señal más fuerte - Conserva el mismo enrutamiento experto, top-k y top-p durante la inferencia que en el entrenamiento