Makalah yang menarik! Ini mengatasi divergensi logits dalam pelatihan LLM dengan perbaikan sederhana: memusatkan penyematan output dengan mengurangi rata-rata mereka. Teorinya memeriksa, solusi yang rapi dan elegan! 🔗