¡Artículo interesante! Aborda la divergencia logit en el entrenamiento de LLM con una solución sencilla: centrar las incrustaciones de salida restando su media. La teoría cuadra, ¡solución elegante y ordenada! 🔗