Bài báo thú vị! Nó giải quyết sự phân kỳ logits trong việc đào tạo LLM với một cách sửa đơn giản: trung tâm hóa các nhúng đầu ra bằng cách trừ đi giá trị trung bình của chúng. Lý thuyết rất hợp lý, giải pháp gọn gàng và thanh lịch! 🔗