¡Interesante artículo! Aborda la divergencia de logits en el entrenamiento de LLM con una solución simple: centrar las incrustaciones de salida restando su media. ¡La teoría se confirma, solución ordenada y elegante! 🔗