Interessantes Papier! Es behandelt die Divergenz der Logits im Training von LLMs mit einer einfachen Lösung: die Ausgabe-Embeddings zentrieren, indem man ihren Mittelwert subtrahiert. Die Theorie stimmt, eine saubere und elegante Lösung! 🔗