Article intéressant ! Il aborde la divergence des logits dans l'entraînement des LLM avec une solution simple : centrer les embeddings de sortie en soustrayant leur moyenne. La théorie est vérifiée, solution soignée et élégante ! 🔗