Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
No he seguido de cerca la formación post-formación últimamente, pero parece que DeepSeek está yendo completamente inconformista contra las normas comunitarias:
- sigue usando GRPO, pero en lugar de solo recompensas verificables usa modelos de recompensa adecuados
- no solo recorta más alto + mantiene el término de divergencia KL, sino que lo corrige desde principios básicos usando el estimador K3 2020 de Schulman et al.
- no cambia a fp32 en la inferencia ni añade kernels invariantes por lotes como Thinky, y no se obsesiona con peculiaridades fuera de la política – en su lugar añade una máscara binaria usando KL-div como umbral para muestras negativas sospechosas, para que el modelo aprenda de sus propios errores con una señal más fuerte
- Conserva el mismo enrutamiento experto, top-k y top-p durante la inferencia que en el entrenamiento
Populares
Ranking
Favoritas

