Articolo interessante! Affronta la divergenza dei logit nell'addestramento dei LLM con una semplice soluzione: centrare gli embedding di output sottraendo la loro media. La teoria è valida, soluzione ordinata ed elegante! 🔗